数据更多更好还是品质更高更好？这项研讨能帮你做出选择

当计较估算低时，反复运用高品质数据更好；当不差钱时，运用大量数据更有利。对基础模型从事 scaling 是指运用更多数据、计较和参数从事预训练，简单来说就是「范围扩张」。虽然直接扩张模型范围看起来简单粗暴，但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研讨都认可扩大神经模型范围的做法，所谓量变引起质变，这种观点也被称为神经扩张律（neural scaling laws）。近段时间，又有不少人认为「数据」才是那些当前最佳的闭源模型的关键，不管是 LLM、VLM 还是扩散模型。随着数据品质的重要性得到认可，已

当计较估算低时，反复运用高品质数据更好；当不差钱时，运用大量数据更有利。

对基础模型从事 scaling 是指运用更多数据、计较和参数从事预训练，简单来说就是「范围扩张」。

虽然直接扩张模型范围看起来简单粗暴，但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研讨都认可扩大神经模型范围的做法，所谓量变引起质变，这种观点也被称为神经扩张律（neural scaling laws）。

近段时间，又有不少人认为「数据」才是那些当前最佳的闭源模型的关键，不管是 LLM、VLM 还是扩散模型。随着数据品质的重要性得到认可，已经涌现出了不少旨在提升数据品质的研讨：要么是从大型语料库中过滤出高品质数据，要么是生成高品质的新数据。但是，过去的扩张律一般是将「数据」视为一个同质实体，并未将近期人们关注的「数据品质」作为一个考量维度。

尽管网络上的数据范围庞大，但高品质数据（基于多个评估指标）通常很有限。现在，开创性的研讨来了 —— 数据过滤维度上的扩张律！它来自卡内基梅隆大学和 Bosch Center for AI，其中尤其关注了「大范围」与「高品质」之间的数目 – 品质权衡（QQT）。

数据更多更好还是品质更高更好？这项研讨能帮你做出选择

论文标题：Scaling Laws for Data Filtering—Data Curation cannot be Compute Agnostic

论文地址：https://arxiv.org/pdf/2404.07177.pdf

代码地址：https://github.com/locuslab/scaling_laws_data_filtering

如图 1 所示，当训练多个 epoch 时，高品质数据的功效（utility）就不大了（因为模型已经完成了学习）。

数据更多更好还是品质更高更好？这项研讨能帮你做出选择

此时，运用更低品质的数据（一开始的功效更小）往往比反复运用高品质数据更有助益。

在数目 – 品质权衡（QQT）之下，我们该如何确定训练运用怎样的数据搭配更好？

为了解答这个问题，任何数据整编（data curation）工作流程都必须考虑模型训练所用的总计较量。这分歧于社区对数据过滤（data filtering）的看法。举个例子，LAION 过滤战略是从常见爬取结果中提取出品质最高的 10%。

但从图 2 可以看出，很明显一旦训练超过 35 epoch，在完全未整编的数据集上训练的效果优于在运用 LAION 战略整编的高品质数据上训练的效果。

数据更多更好还是品质更高更好？这项研讨能帮你做出选择

当前的神经扩张律无法建模品质与数目之间这种动态的权衡。此外，视觉 – 语言模型的扩张律研讨甚至还要更加更少，目前的大多数研讨都仅限于语言建模领域。

今天我们要介绍的这项开创性研讨攻克了之前的神经扩张律的三大重要局限，其做到了：

（1）在扩张数据时考虑「品质」这个轴；

（2）预计数据池拉拢的扩张律（而无需真正在该拉拢上从事训练），这有助于引导实现最优的数据整编决策；

（3）调整 LLM 扩张律，使之适用于对比训练（如 CLIP），其中每一批都有平方数目的比较次数。

该团队首次针对异构和数目有限的网络数据提出了扩张律。

大型模型是在多种品质的数据池拉拢上训练完成的。通过对从各个数据池的扩散参数（如图 1 (a) 中的 A-F）派生的聚合数据功效从事建模，就可以直接预计模型在这些数据池的任意拉拢上的性能。

需要重点指出，这种方法并不需要在这些数据池拉拢上从事训练就能预计它们的扩张律，而是可以根据各个组成池的扩张参数直接预计它们的扩张曲线。

相比于过去的扩张律，这里的扩张律有一些重要差异，可以建模对比训练机制中的反复，实现 O (n²) 比较。举个例子，如果训练池的大小倍增，对模型损失有影响的比较次数就会变成原来的四倍。

他们用数学形式描述了来自分歧池的数据的相互交互方式，从而可以在分歧的数据拉拢下预计模型的性能。这样便可以得到适合当前可用计较的数据整编战略。

这项研讨给出的一个关键信息是：数据整编不能脱离计较从事。

当计较估算少时（更少反复），在 QQT 权衡下品质优先，如图 1 中低计较量下的激进过滤（E）的最佳性能所示。

另一方面，当计较范围远超过所用训练数据时，有限高品质数据的功效会下降，就需要想办法弥补这一点。这会得到不那么激进的过滤战略，即数据量更大时性能更好。

该团队从事了实验论证，结果表明这个用于异构网络数据的新扩张律能够运用 DataComp 的中等范围池（128M 样本）预测从 32M 到 640M 的各种计较估算下的帕累托最优过滤战略。

一定计较估算下的数据过滤

该团队通过实验研讨了分歧计较估算下数据过滤的效果。

他们运用一个大型初始数据池训练了一个 VLM。至于基础的未过滤数据池，他们选用了近期的数据整编基准 Datacomp 的「中等」范围版本。该数据池包含 128M 样本。他们运用了 18 个分歧的下游任务，评估的是模型的零样本性能。

他们首先研讨了用于获得 LAION 数据集的 LAION 过滤战略，结果见图 2。他们观察到了以下结果：

1. 在计较估算低时，运用高品质数据更好。

2. 当计较估算高时，数据过滤会造成妨害。

原因为何？

LAION 过滤会保留数据中大约 10% 的数据，因此计较估算大约为 450M，来自已过滤 LAION 池的每个样本会被运用大约 32 次。这里的关键见解是：对于同一个样本，如果其在训练过程中被多次看见，那么每一次所带来的功效就会下降。

之后该团队又研讨了其它两种数据过滤方法：

（1）CLIP 分数过滤，运用了 CLIP L/14 模型；

（2）T-MARS，在掩蔽了图像中的文本特征（OCR）后基于 CLIP 分数对数据从事排名。对于每种数据过滤方法，他们采用了四个过滤层级和多种分歧的总计较量。

图 3 给出了在计较范围为 32M、128M、640M 时 Top 10-20%、 Top 30%、Top 40% CLIP 过滤的结果比较。

数据更多更好还是品质更高更好？这项研讨能帮你做出选择

在 32M 计较范围时，高度激进的过滤战略（根据 CLIP 分数仅保留前 10-20%）得到的结果最好，而最不激进的保留前 40% 的过滤方法表现最差。但是，当计较范围扩张到 640M 时，这个趋势就完全反过来了。运用 T-MARS 评分指标也能观察类似的趋势。

数据过滤的扩张律

该团队首先用数学方式定义了功效（utility）。

他们的做法不是预计 n 的样本在训练结束时的损失，而是考虑一个样本在训练阶段的任意时间点的瞬时功效。其数学公式为：

数据更多更好还是品质更高更好？这项研讨能帮你做出选择

这表明，一个样本的瞬时功效正比于当前损失且反比于目前所见到的样本数目。这也符合我们的直观想法：当模型看到的样本数目变多，样本的功效就会下降。其中的重点是数据功效参数 b 。

接下来是数据被反复运用之下的功效。

数学上，一个被见到 k+1 次的样本的功效参数 b 的定义为：

数据更多更好还是品质更高更好？这项研讨能帮你做出选择

其中 τ 是功效参数的半衰期。τ 值越高，样本功效随着反复而衰减得越慢。δ 则是功效随反复的衰减情况的简洁写法。那么，模型在看过 n 个样本且每个样本都被看过 k 次之后的损失的表达式就为：

数据更多更好还是品质更高更好？这项研讨能帮你做出选择

其中 n_j 是在第 j 轮训练 epoch 结束时的模型看到的样本数目。这一等式是新提出的扩张律的基础。

最后，还有一层复杂性，即异构的网络数据。

然后就得到了他们给出的定理：给定随机均匀采样的 p 个数据池，其各自的功效和反复参数分别为 (b_1, τ_1)…(b_p, τ_p)，则每个 bucket 的新反复半衰期就为 τˆ = p・τ。此外，拉拢后的数据池在第 k 轮反复时的有效功效值 b_eff 是各个功效值的加权平均值。其数学形式为：

数据更多更好还是品质更高更好？这项研讨能帮你做出选择其中，这是新的每 bucket 衰减参数。

最后，可以在 (3) 式中运用上述定理中的 b_eff，就能预计出在数据池拉拢上从事训练时的损失。

针对各种数据功效池拟合扩张曲线

该团队用实验探究了新提出的扩张律。

图 4 给出了拟合后的各种数据功效池的扩张曲线，其运用的数据功效指标是 T-MARS 分数。

数据更多更好还是品质更高更好？这项研讨能帮你做出选择

图 4 的第 2 列表明各个数据池的功效会随 epoch 增多而降低。下面是该团队给出的一些重要观察结果：

1. 网络数据是异构的，无法通过单一一组扩张参数从事建模。

2. 分歧数据池有分歧的数据多样性。

3. 具有反复现象的高品质数据的效果赶不上直接运用低品质数据。

结果：在 QQT 下为数据拉拢预计扩张律

前面针对分歧品质的数据池推断了各自相应的参数 a、b、d、τ。而这里的目标是确定当给定了训练计较估算时，最有效的数据整编战略是什么。

通过前面的定理以及各个数据池的扩张参数，现在就能预计分歧池拉拢的扩张律了。举个例子，可以认为 Top-20% 池是 Top-10% 和 Top 10%-20% 池的拉拢。然后，这种来自扩张曲线的趋势就可以用于预测给定计较估算下的帕累托最优数据过滤战略。

图 5 给出了分歧数据拉拢的扩张曲线，这是在 ImageNet 上评估的。

数据更多更好还是品质更高更好？这项研讨能帮你做出选择

这里需要强调，这些曲线是基于上述定理，直接根据各个组成池的扩张参数预计的。他们并未在这些数据池拉拢上训练来预计这些扩张曲线。散点是实际的测试性能，其作用是验证预计得到的结果。

可以看到：（1）当计较估算低 / 反复次数少时，激进的过滤战略是最好的。

（2）数据整编不能脱离计较从事。

对扩张曲线从事扩张

2023 年 Cherti et al. 的论文《Reproducible scaling laws for contrastive language-image learning》研讨了针对 CLIP 模型提出的扩张律，其中训练了计较范围在 3B 到 34B 训练样本之间的数十个模型，并且模型涵盖分歧的 ViT 系列模型。在这样的计较范围上训练模型的成本非常高。Cherti et al. (2023) 的目标是为这一系列的模型拟合扩张律，但对于在小数据集上训练的模型，其扩张曲线有很多错误。

CMU 这个团队认为这主要是因为他们没考虑到反复运用数据造成的功效下降问题。于是他们运用新提出的扩张律预计了这些模型的误差。

图 6 是修正之后扩张曲线，其能以很高的准确度预测误差。

数据更多更好还是品质更高更好？这项研讨能帮你做出选择

这表明新提出的扩张律适用于用 34B 数据计较训练的大型模型，这说明在预测模型训练结果时，新的扩张律确实能考虑到反复数据的功效下降情况。

更多技术细节和实验结果请参阅原论文。

{{userData.name}}已认证

数据更多更好还是品质更高更好？这项研讨能帮你做出选择

在对齐 AI 时，为什么在线方法总是优于离线方法？

WOT大会日程上线：我们找来数十位大模型试验企业现身说法

最强文生图 AI 模型 Flux 再进化：出图速度快 6 倍，Elo 评分冲上 1153 傲视群雄

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

最新 AI 生图模型 Flux1.1 隐藏玩法，添加单反相机文件名获得超写实图像

快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

Meta 用 AI 生成北极光图片，遭网友怒喷

奥特曼赢家通吃！OpenAI再揽66亿美元新融资，还不忘「狙击」一把老同事Ilya

Meta 发布 AI 视频生成器 Movie Gen：可自动生成含声音的高清视频

AI 赋能游戏开发：Valve 工程师借助 ChatGPT 改进《Deadlock》匹配算法