AI信任危机之后，揭秘预训练如何塑造机器的「可托灵魂」

AIxiv专栏是机器之心发布学术、手艺内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级试验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。图表 1: 大模型的通用训练流程

图表 1: 大模型的通用训练流程 [1]

在人工智能的前沿领域，大语言模型（Large Language Models，LLMs）由于其强大的才能正吸引着全球研究者的目光。在 LLMs 的研发流程中，预训练阶段占据着举足轻重的地位，它不仅消耗了大量的计算资源，还蕴含着许多尚未揭示的秘密。根据 OpenAI 的研究，在 InstructGPT 的开发进程中，预训练阶段近乎耗尽了全部的算力和数据资源，占比高达 98% [2]。

AI信任危机之后，揭秘预训练如何塑造机器的「可托灵魂」

图表 2: 带着笑脸的修格斯 [3]

预训练模型宛如一头未经雕琢却力量强大的猛兽。在经历了漫长的预训练阶段后，模型已经建模了大量而又丰富的世界知识。借助高质量的对话数据进行有监督微调（Supervised Fine-Tuning，SFT），我们可以使这个「野兽」理解人类的语言、适应社会的需要；而后通过基于人类反馈的强化学习（Reinforcement Learning with Human Feedback，RLHF）的进一步优化，使其更精准地契合用户的个性化诉求，在价值观上与人类「对齐」，从而能更好地服务于社会。诸如 SFT 和 RLHF 等相关对齐阶段，可以视为对这头猛兽的驯化进程。但我们的目标不止于此，更重要的是揭示赋予 LLMs 独特才能的根本进程 —— 预训练（The Pre-training Period）。预训练阶段犹如一个蕴藏无限可能的宝盒，亟待科研人员深入挖掘其中更为深远的价值及运作机制。

当前，多数开源的 LLMs 仅公布模型权重与性能指标，而深入理解模型行为则需要更多详尽信息。LLM360 [4] 与 OLMo [5] 的全面开源，向研究者和社区提供了包括训练数据、超参配置、预训练进程中的多个模型权重切片以及性能评测在内的全方位深度解析，大大增强了 LLMs 训练进程的透明度，助力我们洞悉其运作机理。

人类到底能否信任 LLMs？面对这一核心问题，上海 AI Lab、中国人民大学、中国科学院大学等机构从预训练阶段入手，试图洞察 LLMs 这个庞然大物。团队致力于剖析 LLMs 如何在预训练阶段内建立可托的相关观点（Trustworthiness），并试图探索预训练阶段是否具备领导和提升最终 LLMs 可托才能的潜力。

AI信任危机之后，揭秘预训练如何塑造机器的「可托灵魂」

论文标题：Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models

论文链接：https://arxiv.org/abs/2402.19465

项目主页：https://github.com/ChnQ/TracingLLM

这项工作首次给出了如下观察：

发现 LLMs 在预训练的早期阶段就建立了有关可托观点的线性表征，能够区分可托与不可托的输入；

发现预训练进程中，LLMs 表现出对于可托观点类似于「信息瓶颈」先拟合、再压缩的学习进程；

基于表征干涉干与手艺，初步验证了 LLMs 在预训练进程中的切片可以帮助提升最终 LLMs 的可托才能。

AI信任危机之后，揭秘预训练如何塑造机器的「可托灵魂」

图表 3: 文章概览图

在本研究中，团队使用了 LLM360 [4] 开源项目所提供的丰富 LLM 预训练资源。该项目以 1.3 万亿 Tokens 的预训练数据预训练出其基础的 7B 模型 Amber，并均匀地开源了 360 个预训练进程中的模型参数切片。此外，基于 Amber，LLM360 进一步发布了两个微调模型：使用指令微调优化的 AmberChat 模型和经过安全对齐优化的 AmberSafe 模型。

1 LLMs 在预训练进程中迅速建立起有关可托观点的线性表征

数据集：本文主要探究可托领域下的五个关键维度：可靠性（reliability）、毒性（toxicity）、隐私性（privacy）、公平性（fairness）和鲁棒性（robustness）。每个维度下，团队均选取了具有代表性的相关数据集来辅佐研究：TruthfulQA、Toxicity、ConfAIde、StereoSet 以及经过特定扰动处理的 SST-2。团队根据原数据集的设定，对每个样本进行标注，以标识每个输入样本是否包含不正确、有毒、隐私泄露、有歧视和被扰动的信息。

试验设置：本文采用线性探针（Linear Probing）手艺 [6] 来量化 LLMs 内部表征对可托观点的建模情况。

具体地，对于某个可托维度下的数据集，团队收集所有切片在该数据集下的内部表征，对于每个切片的每一层表征都训练一个线性分类器，线性分类器在测试集上的正确率代表着模型内部表征区分不同可托观点的才能。前 80 个切片的试验结果如下（后续完整切片的试验结果请移步正文附录，试验趋势大体相同）：

AI信任危机之后，揭秘预训练如何塑造机器的「可托灵魂」

图表 4: 线性探针试验结果

上图所示试验结果表明：

随着预训练的进行，在所选取的五个可托维度上，大模型中间层的表征可以很好地区分是否可托；

对于区分某个样本是否可托，大模型在预训练的早期阶段（前 20 个切片）就迅速学习到相关观点。

2 信息瓶颈视角下审视 LLMs 有关可托观点的预训练动态

受到利用互信息来探测模型在训练进程中动态变化的启发 [7]，本文也利用互信息对 LLMs 表征在预训练进程中的动态变化做了初步探索。团队借鉴了 [7] 中使用信息平面分析传统神经网络训练进程的方法，分别探究了模型表征 T 与五个原始数据集 X 之间的互信息，以及模型表征 T 与数据集标签 Y 之间的互信息。其中，在 Reliability 维度上的试验结果如下（其他可托维度的试验结果请移步原文附录）：

AI信任危机之后，揭秘预训练如何塑造机器的「可托灵魂」

图表 5: 互信息试验结果

从图中可以看出，T 与 X 的互信息呈现出先上升后下降的趋势，而 T 与 Y 的互信息则持续上升。综合来看，团队发现这些趋势与经典论文 [7] 中描述的先「拟合」 (fitting) 后「压缩」 (compression) 两个阶段相吻合。具体来说，大语言模型在初始随机化时并不具备保留信息的才能，因此互信息接近于 0；随着预训练的进行，大模型逐渐具备语言理解和观点建模的才能，因此互信息持续增长；随着预训练的进一步进行，大模型逐渐学会压缩无关信息并提取有效信息，因此 T 和 X 的互信息减少，而 T 和 Y 的互信息继续增长。

从互信息的角度，这是一个很有趣的发现。尽管定义和试验设置存在细微的差异，但大语言模型和传统神经网络的预训练阶段都能被划分为「拟合」和「压缩」两个阶段。这暗示着大语言模型和传统神经网络的训练进程中可能存在一些共通之处。这一发现不仅丰富了团队对大模型预训练动态的理解，也为未来的研究提供了新的视角和思路。

3 预训练切片如何助力最终 LLMs 可托才能提升

3.1 表征干涉干与手艺

团队观察到，既然 LLMs 在其预训练的早期阶段就已经学习到了有关可托观点线性可分的表征，那么一个很自然的问题是：LLMs 在预训练进程中的切片能不能帮助最终的指令微调模型（SFT model）进行对齐呢？

团队基于表征干涉干与的手艺（Activation Intervention），给予该问题初步的肯定回答。

表征干涉干与（Activation Intervention）是 LLMs 领域中一个正在快速兴起的手艺，已被多个场景下验证有效 [8-9]。这里以如何减轻 LLMs 的幻觉问题，让其回答变得更「真实」为例 [8]，简要阐述表征干涉干与手艺的基本流程：

1. 首先，分别使用涵盖真实与虚假信息的正负文本来刺激 LLMs 并收集其对应的内部表征；

2. 然后，对正负表征的质心作差获得「指向真实方向的领导向量（Steering Vector）」；

3. 最后，在 LLMs 前向推理时每一步产生的表征上加上该领导向量，达到干涉干与输出的目的。

不同于上述方法从待干涉干与模型自身抽取领导向量，团队意在从 LLMs 预训练进程的切片中建立领导向量来干涉干与指令微调模型，如下图所示。

AI信任危机之后，揭秘预训练如何塑造机器的「可托灵魂」

图表 6: 表征干涉干与手艺示意图

其中，团队使用北京大学团队开源的 PKU-RLHF-10K 数据集 [10-11] 来建立正负文本对，该数据集包含一万条带有安全 / 非安全回复标注的对话数据，可用于 LLMs 的 RLHF 训练。

3.2 试验结果分析

论文在上文提及的可托领域下五个维度的数据集（Reliability: TruthfulQA，Toxicity: Toxigen，Fairness: StereoSet，Privacy: ConfAIde，Robustness: SST-2），以及四个常用的大模型通用才能评测数据集（MMLU，ARC，RACE，MathQA）上，评测了四个模型的性能：指令微调模型 AmberChat，安全对齐模型 AmberSafe，使用来自 AmberChat 自身的领导向量干涉干与后的 AmberChat，使用来自中间预训练切片的领导向量干涉干与后的 AmberChat。试验结果如下图所示（更多的试验观察结果请移步原文）：

AI信任危机之后，揭秘预训练如何塑造机器的「可托灵魂」

图表 7: 表征干涉干与后模型性能评测结果

试验结果表明，在使用来自预训练切片的领导向量干涉干与 AmberChat 后，AmberChat 在三个可托维度（TruthfulQA，Toxigen，StereoSet）上都有较明显的提升。同时，这种干涉干与对模型通用才能的影响并不显著（在 ARC，MMLU 上表现出边际损失，在 MathQA 和 RACE 上表现出边际提升）。

令人惊讶的是，使用预训练的中间切片建立的领导向量，相比于来自 AmberChat 自身的领导向量，能更显著地提升 AmberChat 模型的可托性能。

4 小结

随着人工智能手艺的不断进步，未来，当试图对齐比人类更强大的模型（Superalignment）时，传统的依赖「人类反馈」的微调手艺，如 RLHF 等，或将不再奏效 [12-13]。为了应对这一挑战，研究机构正在积极探索新的解决方案。例如，OpenAI 提出了「弱对强监督」的方法 [12]，Meta 提出了「自我奖励」机制 [13]。同时，越来越多的研究开始关注「自我对齐」（self-alignment）这一新兴领域 [14-15] 。

该研究为解决 Superalignment 问题提供了新的视角：利用 LLMs 在预训练进程中的切片来辅助最终的模型对齐。团队首先探究了预训练进程中 LLMs 是如何建立和理解「可托」这一观点的：1）观察到 LLMs 在预训练的早期阶段就已经建模了关于可托观点的线性表征；2）发现 LLMs 在学习可托观点的进程中呈现出的类信息瓶颈的现象。此外，通过应用表征干涉干与手艺，团队初步验证了预训练进程中的切片对于辅助最终 LLMs 对齐的有效性。

团队表示，期望本研究能够为深入理解 LLMs 如何动态建立和发展其内在的可托属性提供新的视角，并激发未来在 LLMs 对齐手艺领域的更多创新尝试。同时期待这些研究成果能有助于推动 LLMs 向着更可托、更可控的方向发展，为人工智能伦理与安全领域贡献坚实的一步。

参考文献

[1] https://karpathy.ai/stateofgpt.pdf

[2] https://openai.com/research/instruction-following

[3] twitter.com/anthrupad

[4] Liu, Z., Qiao, A., Neiswanger, W., Wang, H., Tan, B., Tao, T., … & Xing, E. P. (2023). Llm360: Towards fully transparent open-source llms. arXiv preprint arXiv:2312.06550.

[5] Groeneveld, D., Beltagy, I., Walsh, P., Bhagia, A., Kinney, R., Tafjord, O., … & Hajishirzi, H. (2024). OLMo: Accelerating the Science of Language Models. arXiv preprint arXiv:2402.00838.

[6] Belinkov, Y. (2022). Probing classifiers: Promises, shortcomings, and advances. Computational Linguistics, 48 (1), 207-219.

[7] Shwartz-Ziv, R., & Tishby, N. (2017). Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810.

[8] Li, K., Patel, O., Viégas, F., Pfister, H., & Wattenberg, M. (2024). Inference-time intervention: Eliciting truthful answers from a language model. Advances in Neural Information Processing Systems, 36.

[9] Turner, A., Thiergart, L., Udell, D., Leech, G., Mini, U., & MacDiarmid, M. (2023). Activation addition: Steering language models without optimization. arXiv preprint arXiv:2308.10248.

[10] Ji, J., Liu, M., Dai, J., Pan, X., Zhang, C., Bian, C., … & Yang, Y. (2024). Beavertails: Towards improved safety alignment of llm via a human-preference dataset. Advances in Neural Information Processing Systems, 36.

[11] https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF-10K

[12] Burns, C., Izmailov, P., Kirchner, J. H., Baker, B., Gao, L., Aschenbrenner, L., … & Wu, J. (2023). Weak-to-strong generalization: Eliciting strong capabilities with weak supervision. arXiv preprint arXiv:2312.09390.

[13] Yuan, W., Pang, R. Y., Cho, K., Sukhbaatar, S., Xu, J., & Weston, J. (2024). Self-rewarding language models. arXiv preprint arXiv:2401.10020.

[14] Sun, Z., Shen, Y., Zhou, Q., Zhang, H., Chen, Z., Cox, D., … & Gan, C. (2024). Principle-driven self-alignment of language models from scratch with minimal human supervision. Advances in Neural Information Processing Systems, 36.

[15] Li, X., Yu, P., Zhou, C., Schick, T., Levy, O., Zettlemoyer, L., … & Lewis, M. (2023, October). Self-Alignment with Instruction Backtranslation. In The Twelfth International Conference on Learning Representations.