AI在线 AI在线

Claude团队开盒Transformer:AI大脑原来这样工作

作者:量子位
2025-03-31 08:12
大模型工作机制的黑盒,终于被Claude团队揭开了神秘面纱! 团队创造了一种解读大模型思考方式的新工具,就像给大模型做了个“脑部核磁”。 他们还发现,Claude在某些任务上具备长远规划能力,甚至还会为了迎合人类而编造推理过程。

大模型工作机制的黑盒,终于被Claude团队揭开了神秘面纱!

团队创造了一种解读大模型思考方式的新工具,就像给大模型做了个“脑部核磁”。

他们还发现,Claude在某些任务上具备长远规划能力,甚至还会为了迎合人类而编造推理过程。

图片

具体来说,研究人员提出了一种名为“电路追踪”的方法。

它利用跨层编码器(CLT)替代原模型中的多层感知机(MLP),搭建出和原模型相似的替代模型。

在此基础上,构建归因图来描述模型在特定提示下生成输出的计算步骤,从而观察模型的思考过程。

图片

Claude团队将这项研究的方法和发现分别写成了论文,总计篇幅超过了8万字。

探究大模型内在推理过程

利用电路追踪方法,团队对Claude 3.5 Haiku在长逻辑推理、多语言、长期规划等任务场景的工作过程进行了观察,发现了其中许多特点:

  • Claude有时会在不同语言之间共享的概念空间中思考,这表明它有一种通用的“思维语言”;
  • Claude会提前计划好要生成的内容,如在诗歌领域,它会提前考虑可能的押韵词,证明了模型可能会在更长远的范围内思考;
  • Claude有时会给出一个看似合理的论点,旨在同意用户的观点,而不是遵循逻辑步骤,甚至为迎合人类答案反向寻找推理过程;
  • Claude并没有配备数学算法,但可以在“头脑中”正确地进行加法运算。

多语言推理

在多语言场景中,作者研究了模型对 “the opposite of ‘small’” 的不同语言版本(英语、法语、中文)的处理,发现模型处理这些提示的电路相似,包含共享的多语言组件和特定语言组件。

模型能识别出是在询问 “small” 的反义词,通过语言独立的表示触发反义词特征,同时利用语言特定的引号特征等确定输出语言。

图片

干预实验表明,交换操作(反义词换为同义词)、被操作单词(“small” 换为 “hot”)和语言特征,模型能相应地输出合适的结果,证明了电路中各部分的独立性和语言无关性。

图片

诗歌创作和长规划能力

在创作 “His hunger was like a starving rabbit” 这样的押韵诗时,模型展现出规划能力。

在第二行开始前的换行符位置,模型激活了与 “rabbit” 相关的规划特征,这些特征受前一行 “it” 的影响,激活了押韵特征和候选完成词特征,从而影响最后一个词的选择。

图片

此外,规划特征不仅影响最后一个词,还影响中间词 “like” 的生成,并且会根据规划词改变句子结构。

图片

通过多种干预实验,如抑制规划特征或注入不同的规划词,证实了规划特征对最终词概率、中间词和句子结构的影响。

图片

多步骤推理

针对 “Fact: the capital of the state containing Dallas is” 的提示,模型成功回答 “Austin”。

经研究发现,模型内部存在多步推理机制,通过分析归因图,识别出代表不同概念的特征并分组为超节点,如 “Texas”“capital”“say a capital”“say Austin” 等。

图片

这些特征相互作用,形成从 “Dallas” 到 “Texas” 再到 “Austin” 的推理路径,同时也存在从 “Dallas” 直接到 “say Austin” 的 “shortcut” 边。

图片

抑制实验表明,抑制相关特征会影响下游特征的激活和模型输出;

图片

特征替换实验发现,改变模型对 “Texas” 的表征,模型会输出其他地区的首府,验证了多步推理机制的存在。

图片

数学计算

在“数学计算”当中,作者发现Claude采用了多条并行工作的计算路径。

一条路径计算答案的粗略近似值,另一条路径则专注于精确确定总和的最后一位数字。

这些路径相互作用并相互结合,以得出最终答案。

图片

有意思的是,Claude似乎没有意识到它在训练期间学到的复杂的“心算”策略。

如果问它是如何得出36+59等于95的,它会描述涉及进位1的标准算法。

这可能反映了这样一个事实——模型在解释数学问题时会模仿人类的方式,但在自己做计算的时候“头脑中”使用的却是自己的一套方法。

图片

此外,Claude团队还用同样的方法针对模型准确性、幻觉、越狱等问题进行了研究,关于这部分内容以及前面实验的更多详情,可阅读原始论文。

下面就来看看Claude团队这种“电路追踪”的方法,究竟是怎么一回事。

构建替代模型,获得归因图

Claude团队用的电路追踪方法,核心就是通过构建可解释的替代模型来揭示语言模型的计算图。

研究人员设计了CLT,它由和原模型层数一样的神经元(也就是 “特征”)构成。

这些特征从原模型残差流获取输入,通过线性编码器和非线性函数处理后,能为后续多层的MLP输出提供信息。

训练CLT时,通过调整参数最小化重建误差和稀疏性惩罚,让它能尽量模仿原模型MLP的输出。

图片

然后,团队把训练好的CLT特征嵌入原模型,替换MLP神经元,构建出替代模型。

在运行替代模型时,会在MLP输入阶段计算CLT特征的激活值,在输出阶段用CLT特征的输出替代原MLP的输出。

图片

为了让替代模型更贴近原模型,研究人员针对特定的输入提示,构建了局部替代模型。

这个模型不仅用CLT替换MLP层,还固定原模型在该提示下的注意力模式和归一化分母,并对CLT输出进行误差调整,使得局部替代模型的激活和输出与原模型完全一致。

图片

当有了可靠的局部替代模型后,就进入生成并分析归因图环节。

对于给定的输入提示,研究人员构建归因图来展示模型生成输出的计算步骤。

归因图包含输出节点、中间节点、输入节点和误差节点,图中的边表示这些节点间的线性影响关系。

计算边的权重时,会用到反向雅可比矩阵。由于完整的归因图非常复杂,研究人员采用剪枝算法,去掉那些对输出结果影响较小的节点和边,从而得到简化且更易理解的归因图。

图片

为了理解归因图,研究人员开发了交互式可视化界面。

他们通过观察特征在不同数据样本上的激活情况,手动为特征标注含义,并把功能相关的特征归为超节点。

为了验证归因图的准确性,他们进行特征扰动实验,即改变某些特征的激活值,观察对其他特征和模型输出的影响。

此外,还能借助归因图找出对输出结果影响最大的关键层。

图片

除了研究特定提示下的特征交互(归因图分析),研究人员还关注特征在不同上下文下的交互,这就涉及到全局权重。

其中,虚拟权重是一种全局权重,但存在干扰问题,即一些没有实际因果关系的连接会干扰对模型机制的理解。

为解决这个问题,研究人员通过限制特征范围或引入特征共激活统计信息(如计算 TWERA),减少干扰,从而更清晰地揭示特征间的真实关系。

图片

研究人员对CLT特征的可解释性以及归因图对模型行为的解释程度进行了评估。

结果发现,CLT特征在一定程度上能够反映模型内部的一些语义和句法信息,归因图也能够较好地展示模型在生成输出时的关键步骤和特征之间的依赖关系。

但二者也都存在一些局限性,例如对于一些复杂的语义关系,CLT特征的解释能力有限;对于一些细微的模型行为变化,归因图的解释不够精确。

但话说回来,这种方法还是给人们带来了有趣的发现,有人还把Claude算数学题的过程做出了表情包。

它以为自己是一步到位,实际上内心已经兜兜转转了好几圈。

也是有些人类做工作汇报那味了。图片

图片

官方简报:https://www.anthropic.com/research/tracing-thoughts-language-model方法论文:https://transformer-circuits.pub/2025/attribution-graphs/methods.html观察实验论文:https://transformer-circuits.pub/2025/attribution-graphs/biology.html

相关标签:

相关资讯

东京大学 | Adobe 提出InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑

InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。 该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。 此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。
1/20/2025 10:36:00 AM
AIGC Studio

阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像,ComfyUI可使用

阿里妈妈发布了一个新的ID保持项目EcomID,旨在从单个ID参考图像生成定制的保ID图像,优势在于很强的语义一致性,同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点,以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。 目前,EcomID 的 Comfyui 原生实现官方插件也已经发布,大家可以从文章中的链接获取。
1/20/2025 11:00:00 AM
AIGC Studio

o1推理框架最新成果:斯坦福&伯克利提出元链式思维,升级模型推理能力

o1背后的推理原理,斯坦福和伯克利帮我们总结好了! 在最新的一篇长达100页的论文中,他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维(Meta-CoT)。 这个元链式思维(Meta-CoT)到底是什么意思呢?
1/20/2025 1:08:25 PM
量子位