AI在线 AI在线

预训练不等于更强大,研究揭示大语言模型的 “灾难性过度训练” 现象

作者:AI在线
2025-04-14 12:01
近日,来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型(LLMs)训练的新发现:并不是预训练的数据越多,模型的表现就越好。 相反,他们指出,过度的预训练可能会导致模型性能下降,出现一种被称为 “灾难性过度训练” 的现象。 在一项研究中,研究者们对 OLMo-1B 模型进行了比较,分别对其进行了2.3万亿和3万亿个标记的训练。

近日,来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型(LLMs)训练的新发现:并不是预训练的数据越多,模型的表现就越好。相反,他们指出,过度的预训练可能会导致模型性能下降,出现一种被称为 “灾难性过度训练” 的现象。

在一项研究中,研究者们对 OLMo-1B 模型进行了比较,分别对其进行了2.3万亿和3万亿个标记的训练。出乎意料的是,虽然第二个模型接受了更多的数据训练,但其在一些基准测试(例如 AlpacaEval 和 ARC)的表现却下降了多达3%。这引发了人们对传统观点的质疑:多训练是否真的意味着更好?

元宇宙 科幻 赛博朋克 绘画 (3)大模型

图源备注:图片由AI生成,图片授权服务商Midjourney

研究者解释称,这种性能下降与 “渐进敏感性” 现象有关。随着模型接受的标记数量增加,模型对微小变化变得更加脆弱。比如,在微调过程中即使是一些小的调整或噪音的引入,都可能导致先前的训练效果被逆转。为了验证这一点,研究者们在模型中注入高斯噪声,结果显示,经过更长时间训练的模型性能下降得更加明显。

在研究中,作者提出了一个关键概念,即 “拐点”,即在这个点上,额外的训练开始导致性能的下降,而不是提升。对于较小的模型如 OLMo-1B 来说,这一拐点通常出现在超过2.5万亿个标记之后。研究者警告说,“灾难性过度训练” 可能是不可避免的,尤其是在预训练和微调任务不匹配的情况下。

虽然研究者并没有建议完全放弃预训练,但他们强调,开发者应该认真思考预训练的量要适度。研究的结论呼吁在模型扩展方面重新审视整个训练流程的设计。对于那些追求模型规模的 AI 开发者而言,这项研究传达的信息十分明确:有时候,少就是多。

相关资讯

太惨,一个月仅23个下载!盘点2024“理想丰满现实骨感”的大模型们!

整理 | 言征出品 | 51CTO技术栈(微信号:blog51cto)大型语言模型的竞争似乎正在结束,只有少数几个明显的赢家。 其中,DeepSeek V3 已成为 2024 年的焦点,引领中国开源模型的发展。 据 Hugging Face 称,DeepSeek V3 与 GPT-4 和 Claude 3.5 等闭源巨头正面交锋,上个月的下载量为 45,499 次,与Meta 的 Llama 3.1(491,629 次下载)和谷歌的 Gemma 2(377,651 次下载)并驾齐驱。
1/26/2025 11:38:54 AM
言征

Firecrawl推出LLM.txt API:提供网址即可生成任意网站的LLM.txt

近日,Firecrawl 推出了一项全新的功能 ——LLMs.txt 生成器接口(Alpha 版),旨在帮助用户将任何网站的内容转化为清晰、适用于大语言模型(LLM)训练的文本文件。 用户只需提供一个网站的 URL,Firecrawl 便会对该网站及其链接页面进行抓取,生成两种格式的文本文件:llms.txt 和 llms-full.txt,便于后续的分析和训练。 该生成器的工作流程相对简单。
3/10/2025 9:48:00 AM
AI在线

Toolformer揭秘:大语言模型如何自学成才,掌握工具使用!

大语言模型(LLMs)在处理自然语言处理任务时展现出了令人印象深刻的零样本和少样本学习能力,但它们在一些基础功能上表现不佳,例如算术运算或事实查找。 这些局限性包括无法访问最新事件的信息、倾向于虚构事实、难以理解低资源语言、缺乏进行精确计算的数学技能,以及对时间进展的不敏感。 为了克服这些限制,一个简单的方法是让语言模型能够使用外部工具,如搜索引擎、计算器或日历。
2/26/2025 2:22:18 PM
Glodma