能胜任统计学家？Transformers超强进修体制「主动算法采用」

Salesforce AI Research、北京大学和 UC 伯克利合作的最新论文，发现 Transformer 模型在上下文中进修（in-context learning）的新体制：「主动算法采用」，类似统计与呆板进修专家可以现实完成的工作。

ChatGPT 等基于 Transformer 的大语言模型具备极强的在上下文中进修（In-Context Learning，ICL）的能力：输入少量示例样本，即可以正确回答同类题目。如何理解这种 ICL 能力？

本文作者实验发现并证明一种 ICL 的新体制：主动算法采用，可以允许单一 Transformer 模型在不同输入数据上采用执行完全不同的，适合该数据的进修算法，类似统计与呆板进修专家可以现实完成的工作。基于量化的 Transformer 构造，文章一并给出 Transformer 完成 ICL 的一套全面的统计实践，包含近似精度，预计施展阐发，以及预训练的样本复杂度。

论文地址：https://arxiv.org/abs/2306.04637

Transformer 能在 ICL 中完成呆板进修恣意

ChatGPT 等基于 Transformer 的大模型可以根据输入的文本，自上下文中进修。如何系统地理解这种能力？NeurIPS 2022 的一篇论文（Garg et al. 2022）考察了 Transformer 从上下文中从事呆板进修恣意的能力。

将 N 个训练样本与 1 个测试样本 (x_1, y_1, …, x_N, y_N, x_{N+1}) 作为一个序列输入 Transformer，要求 Transformer 输出 y_{N+1}。这些样本来自简单的统计模型，例如线性模型，但每个序列由不同的模型参数（w_\star）生成。Transformer 如果想总是正确地预计 y_{N+1}，那么就需要从训练样本中进修真正的参数 w_\star，并利用其从事预计。

Garg et al. 发现，训练好的 Transformer 总是可以精准地预计 y_{N+1}，并且预计施展阐发可以媲美该数据上的最优算法。例如线性模型上，Transformer 的预计效果可以媲美最小二乘法（Least Squares），稀疏线性模型上媲美 Lasso，决策树上能超过 Gradient Boosting。

能胜任统计学家？Transformers超强进修体制「主动算法采用」

Figure 1: Transformer 能在 ICL 中完成呆板进修恣意 (Garg et al. 2022)

Transformer 虽然在各个恣意中完成最优算法，然而这些算法都只是标准的呆板进修算法，远不能完全解释 ChatGPT 等大模型强大的 ICL 能力。还存在更强的体制吗？

主动算法采用

现实生活中，统计学家与呆板进修专家会如何分析数据？给定一个数据集，统计学家会先确定数据的结构，规模等，然后根据数据的特点采用最适合的算法。如果不确定哪个算法合适，则会同时尝试多个算法，然后利用考证集（validation split）或交叉考证（cross-validation）等采用施展阐发最好的算法。

本文作者发现，Transformer 也可以从事类似的主动算法采用。主动算法采用允许一个单独的 Transformer 模型，在不同的 ICL 题目上采用不同的算法，类似统计学家可以现实完成的工作。

作者给出两种一般的算法采用体制，从实践上证明 Transformer 模型可以完成这两个体制，并且实验上考证了 Transformer 可以近似完成这两种体制，达到了比单一呆板进修算法更强的效果。

体制 1：用考证集做算法采用

在这一体制中，Transformer 先将输入数据分为训练集和考证集。接下来在训练集上同时执行 K 个算法，然后在考证集上测试 K 个算法的施展阐发，最终用施展阐发最好的算法 k_star 给出预计。

能胜任统计学家？Transformers超强进修体制「主动算法采用」

Figure 2: 用考证集做算法采用（右）及实例（左）。

应用这一体制，Transformer 可以完成一大类算法采用。如下图当中，通过恰当的预训练，Transformer 可同时完成在两个带不同正则化的 ridge regression 算法，并对具体数据分布完成较优的那个算法。进一步，对这一恣意，我们在实践上也可以证明 Transformer 可以近似整个恣意的 Bayes 最优施展阐发。

能胜任统计学家？Transformers超强进修体制「主动算法采用」 Figure 3: 单一 Transformer 可以在两个带不同噪音的线性模型中同时接近最优。在每个模型中，Transformer 的预计都接近该模型上 Bayes 最优算法（带不同正则化的 ridge regression）。

体制 2：提前对数据分布从事检验

在这一体制中，Transformer 通过提前检验数据分布（如计算一些统计量），来决定恰当的算法。例如在下图当中，单一的 Transformer 可以在回归题目上完成回归算法（如线性回归），在分类题目上完成分类算法（如 Logistic Regression）。

能胜任统计学家？Transformers超强进修体制「主动算法采用」

Figure 4: 提前对数据分布从事检验（右）及实例（左）。

能胜任统计学家？Transformers超强进修体制「主动算法采用」

Figure 5: 单一 Transformer 可以同时在回归题目和分类题目上接近最优施展阐发：在回归题目上施展阐发接近最小二乘法，在分类题目上接近 Logistic Regression。

实践框架

除了主动算法采用，本文的另一大贡献是给出了 Transformer 从事 ICL 的一套完整的统计进修实践，涵盖

Transformer 如何完成各种呆板进修算法的具体构造，如最小二乘法，Lasso，ridge regression，解广义线性模型的凸优化算法，神经网络上的梯度下降法等；

对上述 Transformer 大小（层数、attention head 个数、权重矩阵的范数）的精确界；

上述 Transformer 在标准统计假设下，在 ICL 中的预计施展阐发；

Transformer 完成主动算法采用时类似的保证；

通过预训练 Transformer 达到上述效果的样本复杂度。

这套实践给出了 Transformer 从事 ICL 的一整套分析框架。作者相信这一框架可以推广到一大类相关题目当中，给出类似的实践保证。

结语

本文从实践和实验上发现 Transformer 模型在 ICL 中可以从事主动算法采用，并给出了一整套从事 ICL 的实践框架。

基于本文的结论还有很大的探索空间，例如其它从事 ICL 或主动算法采用的体制；在 ICL 中逼近 Bayes 最优施展阐发的其它体制；预训练的 Transformer 如何完成算法采用的内部机理；对其它 ICL 恣意的分析。作者相信，对这些题目的进一步探索，能对大模型有更多有趣的发现。

作者简介

本文作者 Yu Bai 现任 Salesforce Research 资深研究科学家。Fan Chen 本科毕业于北京大学，即将博士入学麻省理工大学。Huan Wang、Caiming Xiong 分别现任 Salesforce Research 研究主管及副总裁。Song Mei 现任加州大学伯克利统计系助理教授。

{{userData.name}}已认证

能胜任统计学家？Transformers超强进修体制「主动算法采用」

ChatGPT代码解释器与Jupyter Notebook合体，编码能力更强了

2023摩根大通博士奖学金名单公布，华人超3/5，西电、川大校友在列

MIT计算机科学家意外发现，量子纠缠会「突然消亡」

百度英伟达联合举办！全球规模最大智能体大赛开幕

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

AI 行业风光背后：80% 项目会失败，5 大原因导致

新手必看！5 款 Flux 实用基础工作流（附资源包）