编辑 | 绿萝
在数据可用性和估计方面,大规模使得自然言语处理和估计机视觉等深度进修关键应用范畴取得了重要突破。越来越多的证据表明,规模可能是迷信深度进修的关键因素,但物理先验在迷信范畴的重要性使得规模化的策略和收益变得不确定。
近日,来自 MIT 的钻研团队通过将模型和数据集巨细改变多个数量级来钻研庞大化学模型中的神经标准(neural-scaling)行为,钻研具有超过 10 亿个参数的模型,并在多达 1000 万个数据点的数据集上进行预训练。
钻研考虑用于生成化学的庞大言语模型和用于机器进修原子间势的图神经网络。钻研了物理先验和标准之间的相互作用,并发现了化学言语模型的经验神经标准关系,所考虑的最大数据集巨细的标度指数(scaling exponent)为 0.17,等变图神经网络原子间势的标度指数为 0.26。
该钻研以《Neural scaling of deep chemical models》为题,于 2023 年 10 月 23 日发布在《Nature Machine Intelligence》上。
深度进修在估计机视觉和自然言语处理(NLP)等范畴的「不合理有效性」(unreasonable effectiveness)依赖于深度神经网络利用不断增加的估计、数据和模型容量的能力。
庞大模型,包括来自 Transformers (BERT) 和 DALL-E 的双向编码器表示,已经非常成功地通过自监督预训练从庞大数据集中合成信息,并执行各种下游任务,几乎不需要任何精细处理。调整 NLP 和估计机视觉中大多数最先进的模型都是从一小组庞大预训练模型改编而来的。当然,我们可能期望大模型和数据集标准将是迷信深度进修取得巨大成功的先决条件。
AlphaFold、Open Catalyst Project 和 ChemBERTa 等近期工作表明,更大的数据集和模型、预训练和自监督进修可以释放化学深度进修的新功能。然而,与估计机视觉和自然言语处理不同,深度标准化学网络的路径和潜在好处尚不清楚。
化学深度进修可以结合基于物理的先验,这可能会改善其他范畴的巨大资源需求。此外,由于化学空间和份子机器进修任务的异质性和复杂性,训练在各种下游任务上表现良好的通用且稳健的模型仍然是一个紧迫的挑战。化学空间的巨大和这些任务的异质性激发了对化学中大规模模型的钻研,因为此类模型非常适合未标记的多模式数据集。
最近,神经标准定律(neural-scaling laws)作为一种描述模型性能在模型巨细、数据集巨细和估计等多个数量级上显著提高的趋势的方法而出现;然而,这些实验需要大量的估计资源,并依赖于众所周知的、特定范畴的模型训练程序,这些程序不适用于传统的深度进修应用范畴之外。
由于开发和部署大模型的成本过高,因此很难钻研迷信深度进修模型的神经标准行为,这需要昂贵的超参数优化(HPO)和实验。适用于小型模型和小型数据集的架构和超参数无法 transfer 到更大的规模。随着资源需求的增加,迷信深度进修将变得越来越难以获得。
在此,MIT 钻研人员开发了深度(deep)化学模型的神经标准策略,并钻研了用于生成化学建模的大言语模型(LLM)和用于机器进修原子间势的图神经网络(GNN)中的神经标准行为。
图 1:发现深度化学模型的神经标准关系。(来源:论文)
ChemGPT,一种用于小份子自回归言语建模的生成式预训练 Transformer。利用多达 1000 万个独特份子的数据集来训练具有超过 10 亿个参数的 ChemGPT 模型。钻研人员还钻研了在份子动力学轨迹上训练的庞大、不变和等变 GNN,并钻研基于物理的先验如何影响标准行为。
为了克服新范畴中大规模超参数调整的挑战,钻研人员扩展了加速神经架构搜索的技术,以在 HPO 和神经架构选择过程中将总时间和估计预算减少高达 90%。钻研确定了化学模型在模型容量和数据集巨细方面的扩展趋势,并展示了随着规模的增加所看到的预训练损坏性能的改进。
图 2 显示了对来自份子集 (Molecular Sets,MOSES) 数据集的 200 万个份子进行训练的 ChemGPT 模型的训练性能估计 (TPE) 结果。
利用 MOSES 来演示如何利用 TPE 快速发现化学 LLM(例如 ChemGPT)的最好设置。为了实现扩展实验,主要关注与进修动态相关的设置。为了证明 TPE 的有效性,利用 HuggingFace 中因果言语建模的默认进修率和 batch 巨细初始化 ChemGPT。然后,改变进修率和 batch 巨细,并利用不同的超参数训练模型 50 epochs。图 2 为 50 epochs 后的真实损坏与仅 10 epochs 后利用 TPE 的预测损坏。线性回归 R^2 = 0.98,Spearman 秩相关 ρ = 1.0。只需总训练预算的 20%,就能够识别出优于 HuggingFace 默认设置的模型配置。对于新数据集,该过程可轻松重复,并可加速 HPO。
图 2:在利用 TPE 进行训练的早期就确定了最好模型,并停止非最好模型的训练,以节省 80% 以上的总估计消耗。(来源:论文)
据观察,小 batch(甚至是 1 batch)在不同的 NFF 架构中运行良好。TPE 提供了一种快速评估 batch 巨细和进修率不同组合的速度与准确度权衡的方法,这些组合是相互依赖的,并且必须一起变化才能实现大 batch 训练。
TPE 对于 GNN 的表现同样出色。利用整个训练预算的模型损坏的方差很重要,表明适当的 HPO 的重要性。
图 3:在利用 TPE 进行训练的早期就确定了最好模型,并停止非最好模型的训练,以节省 80% 以上的总估计消耗。(来源:论文)
接下来,通过利用 TPE 有效扩展实验的策略,钻研了 ChemGPT 和 NFF 中的神经标准。
图 4:ChemGPT 模型性能(验证损坏)的神经标准作为模型(非嵌入参数数量)和数据集(标记数量)巨细的函数。(来源:论文)
该钻研的核心贡献是发现化学深度进修极其多样化范畴的神经标准定律:言语模型和神经原子间势。钻研结果为迷信深度进修中的标准钻研提供了动力和实践指导,并为大规模和物理深度进修的交叉点提供了许多富有成效的新钻研方向。
该钻研的一个重要发现是,对于庞大化学言语模型和 NFF,在模型巨细、数据集巨细或估计方面都没有饱和模型损坏。在钻研化学标准的局限性方面仍有许多进一步的工作要做。
论文链接:https://www.nature.com/articles/s42256-023-00740-3