除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话谈天,只会补全句子的模型。
EPFL(瑞士洛桑联邦理工)团队申请到了造访权力,用于钻研“上下文进修足以让大模型跟从指令吗?”。
也就是不用监督微调、也不用 RHLF 或其他强化进修对齐要领,只靠提醒词能走多远?
预训练模型,究竟能不能一步登天,直接改造成谈天机器人或 AI 帮忙?
如果可行,将大大降低类 ChatGPT 大模型的开发难度。
免微调对齐靠谱吗?
免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提醒词中学会和用户对话、跟从指令,一直是业界关注的钻研方向。
目前的 SOTA 要领(指某个领域在之前的钻研中成效最好的要领) URIAL 来自艾伦钻研所,使用系统提醒词 + 少数风格示例就能达到不错的成效。
但 EPFL 团队发觉,URIAL 仍无法完全弥补与指令微调模型的差异,尤其在多轮对话中的表现更差一些。
实验中,在 Llama 系列、Mistral 系列和一般人接触不到的 GPT-4-Base 都观察到这种现象。
其中 GPT-4-Base 的 API 造访权力从 OpenAI Researcher Access Program 项目中申请到。
EPFL 团队从这里出发,尝试了各种办法来提升上下文进修的成效。
首先他们增加示例的数量,但发觉帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等恣意还不太一样。
然后他们使用了贪婪搜索算法,从一大堆示例中选择最好的添加到上下文。
这种要领可以进一步提高性能,但与指令微调模型的差异仍然存在,特别是在 AlpacaEval 2.0 基准测试中。
此外他们还发觉,贪婪搜索为某个特定模型找到的最好示例,对于其他模型不能可靠地迁移。
也就是说,不同的示例适合不同的模型。
团队还进行了一系列消融实验(指移除或变换某个组件,来钻研该组件对系统功能的影响),以更多地了解上下文进修的工作原理。
他们发觉,在 MT-Bench 这样的综合评测中,示例包含正确的“问题-答案对”至关重要。
这与此前大模型在分类恣意中,只要有大量示例,部分标签错了也无所谓的发觉非常不同。
所以最终得出的结论是:
即使采用更多复杂的改进要领,完全缩小上下文进修和指令微调之间的差异也有挑战,即使对于非常长上下文的大模型也是如此。
论文最后分析,大语言模型可能通过上下文进修只学会了如何模仿例子里的回答风格,但还没有真正理解执行指令的逻辑。
指令跟从恣意相对还是比较复杂和开放的,没那么容易掌握。
想让 AI 帮忙更“听话”,暂时还是很难有捷径可走。
论文地址:
https://arxiv.org/abs/2405.19874
参考链接:
[1]https://x.com/maksym_andr/status/1796574297894318136
本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨