AIxiv专栏是AI在线发布学术和技术内容的栏目。过去数年,AIxiv专栏报道了超过2000篇内容,涵盖了全球各大高校和企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或联系报道。投稿邮箱:[email protected];[email protected]
本文主要作者来自清华大学和卡内基梅隆大学(CMU)。共同作者包括清华大学计算机系本科毕业生赵晨阳和卡内基梅隆大学硕士生贾雪莹。
尽管大规模语言模型(LLM)在许多自然语言处理任务中表现出色,但在具体任务中的效果仍然有待提升。现有方法通常依赖于高质量的人工标注数据,这种数据的收集过程既耗时又费力,尤其在数据稀缺的任务中尤为困难。
为了应对这一挑战,一些研究尝试通过强大的Teacher Model生成训练数据,提升Student Model在特定任务上的性能。然而,这种方法在成本、可扩展性和法律合规性方面仍面临诸多挑战。如何在缺乏持续高质量人类监督的情况下,保持模型的迭代能力,成为亟待解决的问题。
来自卡内基梅隆大学和清华大学的研究团队提出了SELF-GUIDE方法。该方法通过语言模型自身生成任务特定的数据集,并在该数据集上进行微调,从而显著提升模型在特定任务上的能力,无需依赖大量外部高质量数据或更强大的Teacher Model。具体来说,在外部输入大约3个样例的情况下,SELF-GUIDE采用多阶段的生成和过滤机制,利用模型生成的合成数据进行微调,使模型在特定任务上的表现更加出色。
论文地址:https://arxiv.org/abs/2407.12874
代码仓库:https://github.com/zhaochenyang20/Prompt2Model-SELF-GUIDE
方法
SELF-GUIDE方法分为三个主要阶段:输入数据生成、输出数据生成和质量优化。
输入数据生成
在SELF-GUIDE框架的设计和实现过程中,研究者根据任务类型(生成型任务或分类型任务)指定不同的提示模板。对于生成型任务,使用相对简单的提示模板;对于分类型任务,则首先从标签空间中随机选择一个标签作为伪标签,引导输入数据生成。选定伪标签后,使用较为复杂的条件生成模板引导模型生成对应的输入内容。
输出数据生成
在输出数据生成阶段,采用上下文学习方法:提供任务指令和原始示例,使模型对每个输入进行标注。获取所有输出后,再进行基于规则的过滤,选择最终的合成数据集。
质量优化
生成数据的质量对于下游训练至关重要。SELF-GUIDE采用了两种策略来提高数据质量:
- 调整温度:使用较高的温度鼓励多样性,使用较低的温度确保高质量输出。同时,进行两轮基于规则的数据过滤。
- 噪声过滤:手动整理噪声术语列表,过滤掉包含噪声术语的示例。
- 长度过滤:假设生成示例的长度遵循正态分布,过滤长度偏离范围的示例。
实验结果
为了评估SELF-GUIDE的有效性,研究者在Super-NaturalInstructions V2基准中选择了14个分类任务和8个生成任务。与Few-Shot ICL、Self-ICL和Few-Shot Finetuning等方法进行比较。结果显示,SELF-GUIDE在分类任务和生成任务上分别提升了14.5%和17.9%的性能,表明其在任务特定专业化方面具有显著效果。
总结
SELF-GUIDE框架鼓励模型自主生成训练数据并在此数据上进行微调。实验结果表明,这种方法在提升大规模语言模型特定任务能力方面具有巨大潜力,尤其在数据有限的情况下,SELF-GUIDE有效解决了数据稀缺问题。这一工作为探索自主模型适应和持续学习技术提供了参考,期待进一步推动AI系统在自主对齐和改进机制方面的发展。