OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：钻研不微调只靠提醒词能走多远

AI
6月3日
编辑

清源

除了 OpenAI 自己，居然还有别人能用上 GPT-4-Base 版？？也就是未经微调的预训练版，还不会对话谈天，只会补全句子的模型。EPFL（瑞士洛桑联邦理工）团队申请到了造访权力，用于钻研“上下文进修足以让大模型跟从指令吗？”。也就是不用监督微调、也不用 RHLF 或其他强化进修对齐要领，只靠提醒词能走多远？预训练模型，究竟能不能一步登天，直接改造成谈天机器人或 AI 帮忙？如果可行，将大大降低类 ChatGPT 大模型的开发难度。免微调对齐靠谱吗？免微调对齐，让刚出炉的预训练模型不止会“文本补全”，只从提醒

除了 OpenAI 自己，居然还有别人能用上 GPT-4-Base 版？？也就是未经微调的预训练版，还不会对话谈天，只会补全句子的模型。

EPFL（瑞士洛桑联邦理工）团队申请到了造访权力，用于钻研“上下文进修足以让大模型跟从指令吗？”。

也就是不用监督微调、也不用 RHLF 或其他强化进修对齐要领，只靠提醒词能走多远？

预训练模型，究竟能不能一步登天，直接改造成谈天机器人或 AI 帮忙？

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：钻研不微调只靠提醒词能走多远

如果可行，将大大降低类 ChatGPT 大模型的开发难度。

免微调对齐靠谱吗？

免微调对齐，让刚出炉的预训练模型不止会“文本补全”，只从提醒词中学会和用户对话、跟从指令，一直是业界关注的钻研方向。

目前的 SOTA 要领（指某个领域在之前的钻研中成效最好的要领） URIAL 来自艾伦钻研所，使用系统提醒词 + 少数风格示例就能达到不错的成效。

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：钻研不微调只靠提醒词能走多远

但 EPFL 团队发觉，URIAL 仍无法完全弥补与指令微调模型的差异，尤其在多轮对话中的表现更差一些。

实验中，在 Llama 系列、Mistral 系列和一般人接触不到的 GPT-4-Base 都观察到这种现象。

其中 GPT-4-Base 的 API 造访权力从 OpenAI Researcher Access Program 项目中申请到。

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：钻研不微调只靠提醒词能走多远

EPFL 团队从这里出发，尝试了各种办法来提升上下文进修的成效。

首先他们增加示例的数量，但发觉帮助不大，没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等恣意还不太一样。

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：钻研不微调只靠提醒词能走多远

然后他们使用了贪婪搜索算法，从一大堆示例中选择最好的添加到上下文。

这种要领可以进一步提高性能，但与指令微调模型的差异仍然存在，特别是在 AlpacaEval 2.0 基准测试中。

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：钻研不微调只靠提醒词能走多远

此外他们还发觉，贪婪搜索为某个特定模型找到的最好示例，对于其他模型不能可靠地迁移。

也就是说，不同的示例适合不同的模型。

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：钻研不微调只靠提醒词能走多远

团队还进行了一系列消融实验（指移除或变换某个组件，来钻研该组件对系统功能的影响），以更多地了解上下文进修的工作原理。

他们发觉，在 MT-Bench 这样的综合评测中，示例包含正确的“问题-答案对”至关重要。

这与此前大模型在分类恣意中，只要有大量示例，部分标签错了也无所谓的发觉非常不同。

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：钻研不微调只靠提醒词能走多远

所以最终得出的结论是：

即使采用更多复杂的改进要领，完全缩小上下文进修和指令微调之间的差异也有挑战，即使对于非常长上下文的大模型也是如此。

论文最后分析，大语言模型可能通过上下文进修只学会了如何模仿例子里的回答风格，但还没有真正理解执行指令的逻辑。

指令跟从恣意相对还是比较复杂和开放的，没那么容易掌握。

想让 AI 帮忙更“听话”，暂时还是很难有捷径可走。

论文地址：

https://arxiv.org/abs/2405.19874

参考链接：

[1]https://x.com/maksym_andr/status/1796574297894318136

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨

给TA打赏

共{{data.count}}人

人已打赏

上下文微调指令模型示例

“全球首创”单台 RTX 4090 服务器推理，昆仑万维开源 2 千亿稀疏大模型天工 MoE

2024-6-3 18:11:54

Zoom 创始人谈视频会议未来：数字人“代劳”参会，本人可抽出时间陪同家人

2024-6-3 22:42:06

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
TOP2

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等
12月3日
TOP3

关于LLM-as-a-judge范式，终于有综述讲明白了
12月3日
ChatGPT遇到这些人名开始自闭，OpenAI回应了
12月4日
平安人寿ChatBI：大模型智能化报表的深度实践
12月4日
李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”
12月3日
字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片
12月5日
李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则
12月3日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部