指令调优 - AI在线

斯坦福新作：无指令调优的指令遵循

指令调优（Instruction tuning）是一种优化技术，通过对模型的输入进行微调，以使其更好地适应特定任务。先前的研究表明，指令调优样本效率是很高效的，只需要大约 1000 个指令-响应对或精心制作的提示和少量指令-响应示例即可。本文中，来自斯坦福大学的研究者更进一步探索了这样一种想法，即指令遵循甚至可以隐式地从语言模型中产生，即通过并非明确设计的方法产生。本文发现了两种执行隐式指令调优的适应形式，与显式指令调优相比，它们似乎存在缺陷：（1）响应调优，仅对响应进行训练；（2）单任务调优，仅对来自狭窄目标领域