OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。也就是不用监督微调、也不用 RHLF 或其他强化学习对齐方法,只靠提示词能走多远?预训练模型,究竟能不能一步登天,直接改造成聊天机器人或 AI 助手?如果可行,将大大降低类 ChatGPT 大模型的开发难度。免微调对齐靠谱吗?免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示

除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。

EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”

也就是不用监督微调、也不用 RHLF 或其他强化学习对齐方法,只靠提示词能走多远?

预训练模型,究竟能不能一步登天,直接改造成聊天机器人或 AI 助手?

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

如果可行,将大大降低类 ChatGPT 大模型的开发难度。

免微调对齐靠谱吗?

免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示词中学会和用户对话、跟随指令,一直是业界关注的研究方向。

目前的 SOTA 方法(指某个领域在之前的研究中效果最好的方法) URIAL 来自艾伦研究所,使用系统提示词 + 少数风格示例就能达到不错的效果。

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

但 EPFL 团队发现,URIAL 仍无法完全弥补与指令微调模型的差距,尤其在多轮对话中的表现更差一些。

实验中,在 Llama 系列、Mistral 系列和一般人接触不到的 GPT-4-Base 都观察到这种现象。

其中 GPT-4-Base 的 API 访问权限从 OpenAI Researcher Access Program 项目中申请到。

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

EPFL 团队从这里出发,尝试了各种办法来提升上下文学习的效果。

首先他们增加示例的数量,但发现帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

然后他们使用了贪心搜索算法,从一大堆示例中选择最佳的添加到上下文。

这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 AlpacaEval 2.0 基准测试中。

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

此外他们还发现,贪心搜索为某个特定模型找到的最佳示例,对于其他模型不能可靠地迁移。

也就是说,不同的示例适合不同的模型

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

团队还进行了一系列消融实验(指移除或变换某个组件,来研究该组件对系统功能的影响),以更多地了解上下文学习的工作原理。

他们发现,在 MT-Bench 这样的综合评测中,示例包含正确的“问题-答案对”至关重要

这与此前大模型在分类任务中,只要有大量示例,部分标签错了也无所谓的发现非常不同。

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

所以最终得出的结论是:

即使采用更多复杂的改进方法,完全缩小上下文学习和指令微调之间的差距也有挑战,即使对于非常长上下文的大模型也是如此。

论文最后分析,大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格,但还没有真正理解执行指令的逻辑。

指令跟随任务相对还是比较复杂和开放的,没那么容易掌握。

想让 AI 助手更“听话”,暂时还是很难有捷径可走。

论文地址:

https://arxiv.org/abs/2405.19874

参考链接:

[1]https://x.com/maksym_andr/status/1796574297894318136

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨

相关资讯

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本研究评估了先进多模态基础模型在 10 个数据集上的多样本上下文学习,揭示了持续的性能提升。批量查询显著降低了每个示例的延迟和推理成本而不牺牲性能。这些发现表明:利用大量演示示例可以快速适

为百亿参数LLM化学应用提供新范式,香港理工大学提出上下文分子微调

作者 | 香港理工大学李佳潼编辑 | ScienceAI去年,香港理工大学研究团队开发了一个基于检索的提示范式MolReGPT,利用大型语言模型探索分子发现,在分子和分子文本描述之间进行翻译。近日,香港理工大学、上海交通大学和上海人工智能实验室联合发表了题为《Large Language Models are In-Context Molecule Learners》的文章,也是MolReGPT[1]的续作。论文链接::,大语言模型在生物化学领域展现出了优异的性能,尤其是分子-描述翻译任务[1],这减小了自然语言描

ChatGPT又添劲敌?OpenAI核心员工创业,新模型获一片叫好

ChatGPT 给 AI 领域带来的变革,可能正在催生一个新产业。上周末,有消息称 AI 初创公司 Anthropic 即将获得大约 3 亿美元的新融资。Anthropic 由 OpenAI 前研究副总裁 Dario Amodei、GPT-3 论文一作 Tom Brown 等人在 2021 年共同创立,目前已筹集了超过 7 亿美元的资金,最新一轮的估值达到了 50 亿美元。他们开发了一种对标老东家知名产品 ChatGPT 的人工智能系统,其似乎在关键方面对原版系统做了优化改进。Anthropic 提出的系统名叫 C