从80个模型中构建Scaling Law:华人博士生新作,思想链提出者力荐

在 AI 领域,扩张定律(Scaling laws)是理解 LM 扩张趋势的强大工具,其为广大钻研者提供了一个准则,该定律在理解语言模型的功能如何随规模变化提供了一个重要指导。但不幸的是,扩张分析在许多基准测试和后训练钻研中并不常见,因为大多数钻研人员没有盘算资源来从头开始构建扩张法则,并且开放模型的训练尺度太少,无法进行可靠的扩张预计。来自斯坦福大学、多伦多大学等机构的钻研者提出了一种替代调查法:可调查的扩张定律(Observational Scaling Laws),其将语言模型 (LM) 的功能与跨多个模型系

在 AI 领域,扩张定律(Scaling laws)是理解 LM 扩张趋势的强大工具,其为广大钻研者提供了一个准则,该定律在理解语言模型的功能如何随规模变化提供了一个重要指导。

但不幸的是,扩张分析在许多基准测试和后训练钻研中并不常见,因为大多数钻研人员没有盘算资源来从头开始构建扩张法则,并且开放模型的训练尺度太少,无法进行可靠的扩张预计。

来自斯坦福大学、多伦多大学等机构的钻研者提出了一种替代调查法:可调查的扩张定律(Observational Scaling Laws),其将语言模型 (LM) 的功能与跨多个模型系列的下流功能联系起来,而不是像标准盘算扩张规律那样仅在单个系列内。

该方法绕过了模型训练,而是从基于大约 80 个公开可用的模型上建立扩张定律。但这又引出了另一个问题,从多个模型族构建单一扩张定律面临巨大的挑战,原因在于不同模型之间的训练盘算效率和才能存留很大差异。

尽管如此,该钻研表白,这些变化与一个简单的、广义的扩张定律是一致的,在这个定律中,语言模型功能是低维才能空间(low-dimensional capability space)的函数,而整个模型系列仅在将训练盘算转换为才能的效率上有所不同。

应用上述方法,该钻研展现了许多其他类型的扩张钻研具有惊人的可预计性,他们发觉:一些出现现象遵循平滑的 sigmoidal 行为,并且可以从小模型中预计;像 GPT-4 这样的智能体功能可以从更简单的非智能体基准中精确预计。此外,该钻研还展现了如何预计后训练干预措施(如思想链)对模型的影响。 

钻研表白,即使仅应用小型 sub-GPT-3 模型进行拟合,可调查的扩张定律也能精确预计复杂现象,例如出现才能、智能体功能和后训练方法的扩张(例如思想链)。

从80个模型中构建Scaling Law:华人博士生新作,思想链提出者力荐

论文地址:https://arxiv.org/pdf/2405.10938

论文标题:Observational Scaling Laws and the Predictability of Language Model Performance

论文作者共有三位,其中 Yangjun Ruan 为华人作者 ,他本科毕业于浙江大学。

这篇论文也得到了思想链提出者 Jason Wei 的转发评论,Jason Wei 表示,他非常喜欢这项钻研。

从80个模型中构建Scaling Law:华人博士生新作,思想链提出者力荐

论文介绍

该钻研调查到目前存留数百个开放模型,这些模型拥有不同的规模和才能。不过钻研者不能直接应用这些模型来盘算扩张定律(因为模型族之间的训练盘算效率差异很大),但钻研者希望存留一个适用于模型族的更通用的扩张定律。

特别是,本文假设 LM 的下流功能是低维才能空间(例如自然语言理解、推理和代码生成)函数,模型族的变化仅仅在于它们将训练盘算转换为这些才能的效率。如果这种关系成立,则意味着从低维才能到跨模型族的下流才能存留对数线性关系(这将允许钻研者利用现有模型建立扩张定律)(图 1)。该钻研应用近 80 个公开可用的 LM 获得了低成本、高分辨率的扩张预计 (右)。

从80个模型中构建Scaling Law:华人博士生新作,思想链提出者力荐

通过对标准的 LM 基准分析(例如,Open LLM Leaderboard ),钻研者发觉了一些这样的才能器度, 这些器度在模型家族内部与盘算量之间存留扩张定律关系(R^2 > 0.9)(见下图 3),并且在不同模型家族与下流指标上也存留这种关系。本文将这种扩张关系称为可调查的扩张定律。 

最后,该钻研表白应用可调查的扩张定律成本低且简单,因为有一些系列模型足以复制该钻研的许多核心发觉。通过这种方法,该钻研发觉只需评估 10-20 个模型就可以轻松地对基准和后训练干预进行扩张预计。

从80个模型中构建Scaling Law:华人博士生新作,思想链提出者力荐

出现才能

关于 LM 是否在某些盘算阈值下具有不连续出现的「出现」才能,以及这些才能是否可以应用小模型进行预计,一直存留着激烈的争论。可调查的扩张定律表白,其中一些现象遵循平滑的 S 形曲线,并且可以应用小型 sub Llama-2 7B 模型进行精确预计。

从80个模型中构建Scaling Law:华人博士生新作,思想链提出者力荐

从80个模型中构建Scaling Law:华人博士生新作,思想链提出者力荐

智能体才能

该钻研表白,正如 AgentBench 和 AgentBoard 所测量的,LM 作为智能体的更高级、更复杂的才能可以应用可调查的扩张定律来预计。通过可调查的扩张定律,该钻研仅应用较弱的模型(sub GPT-3.5)就能精确预计 GPT-4 的功能,并将编程才能确定为驱动智能体功能的因素。

后训练方法扩张

该钻研表白,即使将扩张定律拟合到较弱的模型(sub Llama-2 7B)上,扩张定律也可以可靠地预计后训练方法的收益,例如思想链(Chain-of-Thought)、自洽性(Self-Consistency)等等。

总的来说,该钻研的贡献是提出可调查的扩张定律,利用了盘算、简单才能器度和复杂下流指标之间可预计的对数线性关系。

验证可调查的扩张定律

钻研者通过实验验证了这些扩张定律的有用性。此外,在论文发布后,钻研者还预注册了对未来模型的预计,以测试扩张定律是否对当前的模型过拟合。关于实现过程和收集数据的相关代码已在 GitHub 上放出:

GitHub 地址:https://github.com/ryoungj/ObsScaling

出现才能的可预计性

下图 4 展现了应用 PC(principal capability)器度的预计结果,以及基于训练 FLOPs 来预计功能的基线结果。可以发觉,即使仅仅应用功能不佳的模型,也可以应用本文的 PC 器度来精确预计这些才能。

相反,应用训练 FLOPs 会导致测试集上的外推效果和训练集上的拟合效果明显更差,正如更高的 MSE 值所示。这些差异可能是由不同模型系列的训练 FLOPs 导致的。

从80个模型中构建Scaling Law:华人博士生新作,思想链提出者力荐

智能体才能可预计性

下图 5 展现了应用 PC 器度后,可调查的扩张定律的预计结果。可以发觉,在两个智能体基准上,应用 PC 器度的留出模型(GPT-4 或 Claude-2)的功能可以从更弱功能(10% 以上的差距)的模型中精确地预计出。

这表白 LMs 的更复杂智能体才能与它们的基础模型才能息息相关,并能够基于后者进行预计。这也说明了随着基干 LMs 持续扩张规模,基于 LM 的智能体才能具有良好的扩张特性。

从80个模型中构建Scaling Law:华人博士生新作,思想链提出者力荐

后训练技术的影响

下图 6a 展现了应用可调查的扩张定律,CoT 和 SC(Self-Consistency,自洽性)的扩张预计结果。可以发觉,应用 CoT 和 CoT+SC 但不应用(Naive)后训练技术的更强、规模更大模型的功能可以从更弱、更小盘算规模(比如模型大小和训练 FLOPs)的模型中精确预计出。

值得注意的是,两种技术之间的扩张趋势不同,其中与应用 CoT 的自洽性相比,CoT 表现出更明显的扩张趋势。

从80个模型中构建Scaling Law:华人博士生新作,思想链提出者力荐

更多技术细节请参阅原论文。

给TA打赏
共{{data.count}}人
人已打赏
应用

腾讯PCG自研高功能大语言模型推理引擎「一念LLM」正式开源

2024-5-24 14:56:00

应用

通用天下模型问世:不学习就能生成新畛域视频,可实时控制

2024-5-24 15:11:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索