Claude团队开盒Transformer：AI大脑原来这样工作（微信文章未删减版）

正文

克雷西发自凹非寺
量子位 | 公众号 QbitAI

大模型工作机制的黑盒，终于被Claude团队揭开了神秘面纱！

团队创造了一种解读大模型思考方式的新工具，就像给大模型做了个“脑部核磁”。

他们还发现，Claude在某些任务上具备长远规划能力，甚至还会为了迎合人类而编造推理过程。

具体来说，研究人员提出了一种名为“电路追踪”的方法。

它利用跨层编码器（CLT）替代原模型中的多层感知机（MLP），搭建出和原模型相似的替代模型。

在此基础上，构建归因图来描述模型在特定提示下生成输出的计算步骤，从而观察模型的思考过程。

Claude团队将这项研究的方法和发现分别写成了论文，总计篇幅超过了8万字。

探究大模型内在推理过程

利用电路追踪方法，团队对Claude 3.5 Haiku在长逻辑推理、多语言、长期规划等任务场景的工作过程进行了观察，发现了其中许多特点：

Claude有时会在不同语言之间共享的概念空间中思考，这表明它有一种通用的“思维语言”；
Claude会提前计划好要生成的内容，如在诗歌领域，它会提前考虑可能的押韵词，证明了模型可能会在更长远的范围内思考；
Claude有时会给出一个看似合理的论点，旨在同意用户的观点，而不是遵循逻辑步骤，甚至为迎合人类答案反向寻找推理过程；
Claude并没有配备数学算法，但可以在“头脑中”正确地进行加法运算。

多语言推理

在多语言场景中，作者研究了模型对 “the opposite of ‘small’” 的不同语言版本（英语、法语、中文）的处理，发现模型处理这些提示的电路相似，包含共享的多语言组件和特定语言组件。

模型能识别出是在询问 “small” 的反义词，通过语言独立的表示触发反义词特征，同时利用语言特定的引号特征等确定输出语言。

干预实验表明，交换操作（反义词换为同义词）、被操作单词（“small” 换为 “hot”）和语言特征，模型能相应地输出合适的结果，证明了电路中各部分的独立性和语言无关性。

诗歌创作和长规划能力

在创作 “His hunger was like a starving rabbit” 这样的押韵诗时，模型展现出规划能力。

在第二行开始前的换行符位置，模型激活了与 “rabbit” 相关的规划特征，这些特征受前一行 “it” 的影响，激活了押韵特征和候选完成词特征，从而影响最后一个词的选择。

此外，规划特征不仅影响最后一个词，还影响中间词 “like” 的生成，并且会根据规划词改变句子结构。

通过多种干预实验，如抑制规划特征或注入不同的规划词，证实了规划特征对最终词概率、中间词和句子结构的影响。

多步骤推理

针对 “Fact: the capital of the state containing Dallas is” 的提示，模型成功回答 “Austin”。

经研究发现，模型内部存在多步推理机制，通过分析归因图，识别出代表不同概念的特征并分组为超节点，如 “Texas”“capital”“say a capital”“say Austin” 等。

这些特征相互作用，形成从 “Dallas” 到 “Texas” 再到 “Austin” 的推理路径，同时也存在从 “Dallas” 直接到 “say Austin” 的 “shortcut” 边。

抑制实验表明，抑制相关特征会影响下游特征的激活和模型输出；

特征替换实验发现，改变模型对 “Texas” 的表征，模型会输出其他地区的首府，验证了多步推理机制的存在。

数学计算

在“数学计算”当中，作者发现Claude采用了多条并行工作的计算路径。

一条路径计算答案的粗略近似值，另一条路径则专注于精确确定总和的最后一位数字。

这些路径相互作用并相互结合，以得出最终答案。

有意思的是，Claude似乎没有意识到它在训练期间学到的复杂的“心算”策略。

如果问它是如何得出36+59等于95的，它会描述涉及进位1的标准算法。

这可能反映了这样一个事实——模型在解释数学问题时会模仿人类的方式，但在自己做计算的时候“头脑中”使用的却是自己的一套方法。

此外，Claude团队还用同样的方法针对模型准确性、幻觉、越狱等问题进行了研究，关于这部分内容以及前面实验的更多详情，可阅读原始论文。

下面就来看看Claude团队这种“电路追踪”的方法，究竟是怎么一回事。

构建替代模型，获得归因图

Claude团队用的电路追踪方法，核心就是通过构建可解释的替代模型来揭示语言模型的计算图。

研究人员设计了CLT，它由和原模型层数一样的神经元（也就是 “特征”）构成。

这些特征从原模型残差流获取输入，通过线性编码器和非线性函数处理后，能为后续多层的MLP输出提供信息。

训练CLT时，通过调整参数最小化重建误差和稀疏性惩罚，让它能尽量模仿原模型MLP的输出。

然后，团队把训练好的CLT特征嵌入原模型，替换MLP神经元，构建出替代模型。

在运行替代模型时，会在MLP输入阶段计算CLT特征的激活值，在输出阶段用CLT特征的输出替代原MLP的输出。

为了让替代模型更贴近原模型，研究人员针对特定的输入提示，构建了局部替代模型。

这个模型不仅用CLT替换MLP层，还固定原模型在该提示下的注意力模式和归一化分母，并对CLT输出进行误差调整，使得局部替代模型的激活和输出与原模型完全一致。

当有了可靠的局部替代模型后，就进入生成并分析归因图环节。

对于给定的输入提示，研究人员构建归因图来展示模型生成输出的计算步骤。

归因图包含输出节点、中间节点、输入节点和误差节点，图中的边表示这些节点间的线性影响关系。

计算边的权重时，会用到反向雅可比矩阵。由于完整的归因图非常复杂，研究人员采用剪枝算法，去掉那些对输出结果影响较小的节点和边，从而得到简化且更易理解的归因图。

为了理解归因图，研究人员开发了交互式可视化界面。

他们通过观察特征在不同数据样本上的激活情况，手动为特征标注含义，并把功能相关的特征归为超节点。

为了验证归因图的准确性，他们进行特征扰动实验，即改变某些特征的激活值，观察对其他特征和模型输出的影响。

此外，还能借助归因图找出对输出结果影响最大的关键层。

除了研究特定提示下的特征交互（归因图分析），研究人员还关注特征在不同上下文下的交互，这就涉及到全局权重。

其中，虚拟权重是一种全局权重，但存在干扰问题，即一些没有实际因果关系的连接会干扰对模型机制的理解。

为解决这个问题，研究人员通过限制特征范围或引入特征共激活统计信息（如计算 TWERA），减少干扰，从而更清晰地揭示特征间的真实关系。

研究人员对CLT特征的可解释性以及归因图对模型行为的解释程度进行了评估。

结果发现，CLT特征在一定程度上能够反映模型内部的一些语义和句法信息，归因图也能够较好地展示模型在生成输出时的关键步骤和特征之间的依赖关系。

但二者也都存在一些局限性，例如对于一些复杂的语义关系，CLT特征的解释能力有限；对于一些细微的模型行为变化，归因图的解释不够精确。

但话说回来，这种方法还是给人们带来了有趣的发现，有人还把Claude算数学题的过程做出了表情包。

它以为自己是一步到位，实际上内心已经兜兜转转了好几圈。

也是有些人类做工作汇报那味了。

官方简报：
https://www.anthropic.com/research/tracing-thoughts-language-model
方法论文：
https://transformer-circuits.pub/2025/attribution-graphs/methods.html
观察实验论文：
https://transformer-circuits.pub/2025/attribution-graphs/biology.html

— 完 —

量子位年度AI主题策划正在征集中！

欢迎投稿专题 一千零一个AI应用，365行AI落地方案

或与我们分享你在寻找的AI产品，或发现的AI新动向

一键关注 👇 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

Claude团队开盒Transformer：AI大脑原来这样工作

正文