微调
微调已死,强化微调万岁
编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto)OpenAI第二天的直播,奥特曼没有出镜,几位OpenAI的研究员带了一场AI模型的定制魔法秀! “这不是标准的微调......它利用强化学习算法,将我们从高级高中水平带到专家级博士水平。 ”1.12个样本,就能让定制o1超过满血o1标准的微调已经过时了,这次 OpenAI 打破了 AI 定制的界限。
OpenAI 活动第二弹:“强化微调”打造领域专家 AI 模型,阿尔特曼称其为今年最大惊喜
OpenAI 启动了为期 12 天的“shipmas”新品发布周期,将推出一系列新功能、新产品以及相关演示。本次活动第二日,OpenAI 推出了强化微调(Reinforcement Fine-Tuning),帮助开发者和机器学习工程师打造针对特定复杂领域任务的专家模型。
将偏好学习引入模型训练,北大李戈团队新框架,可显著提升代码准确性与执行效率
代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。 北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。 在部分模型上,相比于单独使用SFT,CodeDPO能够将模型的HumanEval得分再多提升10个百分点,最高增幅接近1/3。
在家中完成LLM微调高效指南(上)
编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)LLM在生成文本和理解信息方面非常有效,但它们最终受限于训练数据的语料库。 例如,如果你让一个通用的预训练模型回答与你的业务特定流程或操作有关的问题,最好的结果是它拒绝,最坏的情况是它会信誓旦旦地给出一个看似合理但错误的答案。 当然,你可以通过自己训练一个模型来解决这个问题,但所需的资源往往超出实际可行的范围。
微调 GPT-4o AI 模型新维度,OpenAI 开放图片视觉微调功能
OpenAI 公司昨日(10 月 1 日)发布博文,宣布为 GPT-4o 模型引入视觉微调(vision fine-tuning)功能,除了文本之外还支持微调图像。OpenAI 表示自开放微调 GPT-4o 以来,数十万开发者使用数据集(仅文本)微调了该模型,从而提高了驾驭某些特定任务的能力。OpenAI 在博文中展示了一些合作伙伴的微调案例:Garb :通过视觉微调,提升了交通标志定位准确性 20% 和限速标志定位 13%。Automat:成功率从 16.60% 提升至 61.67%,并在信息提取任务中 F1 分
《Python机器学习》作者科普长文:从头构建类GPT文本分类器,代码开源
学起来吧!近日,机器学习研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又分享了一篇长文,主题为《从头开始构建一个 GPT 风格的 LLM 分类器》。文章展示了如何将预训练的大型语言模型(LLM)转化为强大的文本分类器。AI在线对文章内容进行了不改变原意的编译、整理:为什么要关注分类呢?首先,针对分类任务,对预训练模型进行微调是一个简单有效的 LLM 知识入门方式。其次,文本分类有许多商业应用场景,比如:垃圾邮件检测、情感分析、客户反馈分类、主题分类等等。阅读完本文,你将找到以下
OpenAI 开放 GPT-4o 定制功能,企业可更轻松打造专属 AI 助手
OpenAI 推出了一项新功能,允许企业客户使用自己的数据来定制其最强大的 AI 模型 GPT-4o。此举旨在应对日益激烈的 AI 企业应用竞争,并满足企业对 AI 投资回报的更高要求。所谓定制,即业界所称的“微调(fine-tuning)”。通过微调,现有 AI 模型可以针对特定任务或领域进行优化。例如,一家滑板公司可以微调 AI 模型,使其成为能够回答有关轮子和滑板护理问题的客服聊天机器人。此前,OpenAI 仅允许用户微调其较小的模型,如 GPT-4o mini。而此次开放 GPT-4o 和 GPT-4 的微
清华北航博士生「强迫」Gemma-2 说中文!弱智吧、角色扮演、数学问题表现惊喜
【新智元导读】谷歌的 Gemma 2 刚刚发布,清华和北航的两名博士生就已经成功推出了指令微调版本,显著增强了 Gemma 2 9B / 27B 模型的中文通用对话、角色扮演、数学、工具使用等能力。众所周知,很多国外 LLM 一直存在非英语歧视问题,英语和其他语言在 LLM 中存在的性能差距有时可以用悬殊来形容。之前就有网友发现,GPT-4o 分词器语料库中,中文数据污染非常严重,赌博色情网站是一个也不少,严重影响了我们用中文和 AI 机器人好好聊天。最近发布的 Gemma 2 模型虽然既开源又强悍,但比较遗憾的是
OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远
除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。也就是不用监督微调、也不用 RHLF 或其他强化学习对齐方法,只靠提示词能走多远?预训练模型,究竟能不能一步登天,直接改造成聊天机器人或 AI 助手?如果可行,将大大降低类 ChatGPT 大模型的开发难度。免微调对齐靠谱吗?免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示
为百亿参数LLM化学应用提供新范式,香港理工大学提出上下文分子微调
作者 | 香港理工大学李佳潼编辑 | ScienceAI去年,香港理工大学研究团队开发了一个基于检索的提示范式MolReGPT,利用大型语言模型探索分子发现,在分子和分子文本描述之间进行翻译。近日,香港理工大学、上海交通大学和上海人工智能实验室联合发表了题为《Large Language Models are In-Context Molecule Learners》的文章,也是MolReGPT[1]的续作。论文链接::,大语言模型在生物化学领域展现出了优异的性能,尤其是分子-描述翻译任务[1],这减小了自然语言描
只需单卡RTX 3090,低比特量化训练就能实现LLaMA-3 8B全参微调
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
投稿邮箱:[email protected];[email protected]
仅用250美元,Hugging Face技术主管手把手教你微调Llama 3
大语言模型的微调一直是说起来容易做起来难的事儿。近日 Hugging Face 技术主管 Philipp Schmid 发表了一篇博客,详细讲解了如何利用 Hugging Face 上的库和 fsdp 以及 Q-Lora 对大模型进行微调。我们知道,Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开源大语言模型已经成为 OpenAI 的竞争对手。不过,大多数情况下,使用者需要根据自己的数据对这些开源模型进行微调,才能
OpenAI 新动态:改善微调 API,扩展定制模型计划
感谢OpenAI 公司近日发布新闻稿,宣布改善微调(fine-tuning)API,并进一步扩展定制模型计划。IT之家翻译新闻稿中关于微调 API 的相关改进内容如下基于 Epoch 的 Checkpoint Creation在每次训练 epoch(将训练数据集中的所有样本都过一遍(且仅过一遍)的训练过程)过程中,都自动生成一个完整的微调模型检查点,便于减少后续重新训练的需要,尤其是在过拟合(overfitting,指过于紧密或精确地匹配特定数据集,以至于无法良好地拟合其他数据或预测未来的观察结果的现象)的情况下。
如何从头开始编写LoRA代码,这有一份教程
作者表示:在各种有效的 LLM 微调方法中,LoRA 仍然是他的首选。LoRA(Low-Rank Adaptation)作为一种用于微调 LLM(大语言模型)的流行技术,最初由来自微软的研究人员在论文《 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 》中提出。不同于其他技术,LoRA 不是调整神经网络的所有参数,而是专注于更新一小部分低秩矩阵,从而大大减少了训练模型所需的计算量。由于 LoRA 的微调质量与全模型微调相当,很多人将这种方法称之为微调神器。自发布
3000多条数据里选出200条效果反而更好,MiniGPT-4被配置相同的模型超越了
今年四月诞生的多模态大型语言模型 MiniGPT-4 不仅能看图聊天,还能利用手绘草图建网站,可以说是功能强大。而在预训练之后的微调阶段,该模型使用了 3000 多个数据。确实很少,但上海交通大学清源研究院和里海大学的一个联合研究团队认为还可以更少,因为这些数据中大部分质量都不高。他们设计了一个数据选择器,从中选出了 200 个数据,然后训练得到了 InstructionGPT-4 模型,其表现竟优于微调数据更多的 MiniGPT-4!这究竟是如何做到的?
坚持做行业大模型,竹间智能给大模型造了一座「模型工厂」
企业被放在了开往大模型时代列车的驾驶座上。
谷歌内部文件泄漏:谷歌、OpenAI都没有护城河,大模型门槛正被开源踏破
「我们没有护城河,OpenAI 也没有。」在最近泄露的一份文件中,一位谷歌内部的研究人员表达了这样的观点。
- 1