微调

微调已死，强化微调万岁
编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）OpenAI第二天的直播，奥特曼没有出镜，几位OpenAI的研究员带了一场AI模型的定制魔法秀！ “这不是标准的微调......它利用强化学习算法，将我们从高级高中水平带到专家级博士水平。 ”1.12个样本，就能让定制o1超过满血o1标准的微调已经过时了，这次 OpenAI 打破了 AI 定制的界限。
理论
- 974
- 0
言征12月10日
OpenAI 活动第二弹：“强化微调”打造领域专家 AI 模型，阿尔特曼称其为今年最大惊喜
OpenAI 启动了为期 12 天的“shipmas”新品发布周期，将推出一系列新功能、新产品以及相关演示。本次活动第二日，OpenAI 推出了强化微调（Reinforcement Fine-Tuning），帮助开发者和机器学习工程师打造针对特定复杂领域任务的专家模型。
应用
- 971
- 0
故渊12月7日
将偏好学习引入模型训练，北大李戈团队新框架，可显著提升代码准确性与执行效率
代码模型SFT对齐后，缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作，在模型训练过程中引入偏好学习，提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上，相比于单独使用SFT，CodeDPO能够将模型的HumanEval得分再多提升10个百分点，最高增幅接近1/3。
理论
- 975
- 0
admin11月27日
在家中完成LLM微调高效指南（上）
编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）LLM在生成文本和理解信息方面非常有效，但它们最终受限于训练数据的语料库。例如，如果你让一个通用的预训练模型回答与你的业务特定流程或操作有关的问题，最好的结果是它拒绝，最坏的情况是它会信誓旦旦地给出一个看似合理但错误的答案。当然，你可以通过自己训练一个模型来解决这个问题，但所需的资源往往超出实际可行的范围。
理论
- 970
- 0
言征11月11日
微调 GPT-4o AI 模型新维度，OpenAI 开放图片视觉微调功能
OpenAI 公司昨日（10 月 1 日）发布博文，宣布为 GPT-4o 模型引入视觉微调（vision fine-tuning）功能，除了文本之外还支持微调图像。OpenAI 表示自开放微调 GPT-4o 以来，数十万开发者使用数据集（仅文本）微调了该模型，从而提高了驾驭某些特定任务的能力。OpenAI 在博文中展示了一些合作伙伴的微调案例：Garb ：通过视觉微调，提升了交通标志定位准确性 2…
应用
- 9
- 0
故渊10月2日
《Python机器学习》作者科普长文：从头构建类GPT文本分类器，代码开源
学起来吧！近日，机器学习研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又分享了一篇长文，主题为《从头开始构建一个 GPT 风格的 LLM 分类器》。文章展示了如何将预训练的大型语言模型（LLM）转化为强大的文本分类器。AI在线对文章内容进行了不改变原意的编译、整理：为什么要关注分类呢？首先，针对分类任务，对预训练模型进行微调是一个简单有效的 LLM 知识入门方式…
基础
- 4
- 0
机器之心9月28日
OpenAI 开放 GPT-4o 定制功能，企业可更轻松打造专属 AI 助手
OpenAI 推出了一项新功能，允许企业客户使用自己的数据来定制其最强大的 AI 模型 GPT-4o。此举旨在应对日益激烈的 AI 企业应用竞争，并满足企业对 AI 投资回报的更高要求。所谓定制，即业界所称的“微调（fine-tuning）”。通过微调，现有 AI 模型可以针对特定任务或领域进行优化。例如，一家滑板公司可以微调 AI 模型，使其成为能够回答有关轮子和滑板护理问题的客服聊天机器人。此…
应用
- 45
- 0
远洋8月21日
清华北航博士生「强迫」Gemma-2 说华文！弱智吧、角色扮演、数学课题表现惊喜
【新智元导读】谷歌的 Gemma 2 刚刚发布，清华和北航的两名博士生就已经成功推出了指令微调版本，显著增强了 Gemma 2 9B / 27B 模型的华文通用对话、角色扮演、数学、工具使用等能力。众所周知，很多国外 LLM 一直存在非英语歧视课题，英语和其他语言在 LLM 中存在的性能差距有时可以用悬殊来形容。之前就有网友发现，GPT-4o 分词器语料库中，华文数据污染非常严重，赌博色情网站是一…
应用
- 7
- 0
清源7月6日
OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：钻研不微调只靠提醒词能走多远
除了 OpenAI 自己，居然还有别人能用上 GPT-4-Base 版？？也就是未经微调的预训练版，还不会对话谈天，只会补全句子的模型。EPFL（瑞士洛桑联邦理工）团队申请到了造访权力，用于钻研“上下文进修足以让大模型跟从指令吗？”。也就是不用监督微调、也不用 RHLF 或其他强化进修对齐要领，只靠提醒词能走多远？预训练模型，究竟能不能一步登天，直接改造成谈天机器人或 AI 帮忙？如果可行，将大大…
AI
- 37
- 0
清源6月3日
为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文份子微调
作者 | 香港理工大学李佳潼编辑 | ScienceAI去年，香港理工大学研究团队开发了一个基于检索的提示范式MolReGPT，利用大型谈话模型探索份子发现，在份子和份子文本形容之间进行翻译。近日，香港理工大学、上海交通大学和上海人工智能实行室联合发表了题为《Large Language Models are In-Context Molecule Learners》的文章，也是MolReGPT[…
理论
- 21
- 0
ScienceAI5月29日
只需单卡RTX 3090，低比特量化训练就能实行LLaMA-3 8B全参微调
AIxiv专栏是机器之心发布学术、手艺内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]
理论
- 5
- 0
机器之心5月25日
仅用250美元，Hugging Face技术主管手把手教你微调Llama 3
大谈话模型的微调一直是说起来容易做起来难的事儿。近日 Hugging Face 技术主管 Philipp Schmid 发表了一篇博客，详细讲解了如何利用 Hugging Face 上的库和 fsdp 以及 Q-Lora 对大模型从事微调。我们知道，Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开…
AI
- 58
- 0
机器之心5月6日
OpenAI 新动态：改善微调 API，扩张定制模型规划
感谢OpenAI 公司近日发布新闻稿，宣布改善微调（fine-tuning）API，并进一步扩张定制模型规划。IT之家翻译新闻稿中关于微调 API 的相关改进内容如下基于 Epoch 的 Checkpoint Creation在每次训练 epoch（将训练数据集中的所有样本都过一遍（且仅过一遍）的训练过程）过程中，都自动生成一个完整的微调模型检查点，便于减少后续重新训练的需要，尤其是在过拟合（ov…
AI
- 44
- 0
故渊4月5日
如何从头开始编辑LoRA代码，这有一份教程
作者表示：在各种有效的 LLM 微调格式中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大语言模型）的流行技术，最初由来自微软的研究人员在论文《 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 》中提出。不同于其他技术，LoRA 不是调整神经网络的全部参数，而是专注于革新一小部分低秩矩阵…
AI
- 51
- 0
机器之心3月20日
3000多条数据里选出200条效果反而更好，MiniGPT-4被配置相同的模型超越了
今年四月诞生的多模态大型说话模型 MiniGPT-4 不仅能看图聊天，还能利用手绘草图建网站，可以说是功能强大。而在预训练之后的微调阶段，该模型利用了 3000 多个数据。确实很少，但上海交通大学清源研讨院和里海大学的一个联合研讨团队认为还可以更少，因为这些数据中大部分品质都不高。他们设计了一个数据选择器，从中选出了 200 个数据，然后训练获得了 InstructionGPT-4 模型，其表现竟…
AI
- 15
- 0
机器之心23年8月29日
坚持做行业大模型，竹间智能给大模型造了一座「模型工场」
企业被放在了开往大模型时代列车的驾驶座上。
AI
- 12
- 0
机器之心23年7月3日
google内部文件泄漏：google、OpenAI都不护城河，大模型门槛正被开源踏破
「我们不护城河，OpenAI 也不。」在最近泄露的一份文件中，一位google内部的研究人员表达了这样的观点。
AI
- 7
- 0
机器之心23年5月5日