LLMs 并非你所认为的黑箱

Hacker News Top 2026/06/02 23:27 论文

摘要

一篇总结 Anthropic 2025 年关于机制可解释性论文的文章，表明 LLM 并非黑箱，电路追踪可以揭示多步推理和人类可识别的概念。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/03 00:35

# LLM 并非你所听说的黑箱来源：https://www.jay.ai/blog/llms-are-not-a-black-box 来自 Anthropic《论大型语言模型的生物学》的概览图，展示了电路追踪案例研究，涵盖多步推理、规划、多语言电路、加法、医疗诊断、幻觉、拒绝回答、越狱攻击等。 *论大型语言模型的生物学*（Anthropic，2025） LLM 并非你所听说的"黑箱"。机制可解释性——深入神经网络逆向工程其内部运作——已取得重大进展。Anthropic 的 *《论大型语言模型的生物学》*（https://transformer-circuits.pub/2025/attribution-graphs/biology.html）（2025）是这一努力中的里程碑。以下是对他们进展的总结及相关思考。 ## LLM 实际上在"思考"什么？我们如何理解 LLM 在"思考"什么？显然，做到这一点非常有价值——它可以帮助引导模型行为、检测危险意图等等。但这比单纯观察单个神经元的激活要困难得多，原因在于**叠加**：一个神经元参与多个无关概念，而任何给定概念也分散在许多神经元上。你无法仅凭一个单元解读出含义。你需要发挥创造力。解释为什么直接解读 LLM 很困难（由于多义神经元），并促使人们采用更可解释的替代模型架构。 ## 电路追踪一种方法：训练第二个模型来识别离散概念，然后监控这些概念在前向传播过程中如何相互作用。 Anthropic 的 **电路追踪** 技术训练一个"替代"模型，稀疏地重建基础模型 MLP 层的输出。这有效地将基础模型的激活分解为一组稀疏特征——结果发现这些特征对应的是人类能够轻松识别的高层概念，例如"德克萨斯州"或"奥运会"。比较原始 Transformer 模型与稀疏替代模型的示意图，后者的特征映射到人类可解释的概念。一旦你拥有了这些人类可解释的特征，你就可以通过追踪它们在前向传播过程中的相互作用，将它们归类为因果相关的簇——从而构建出计算的接线图。简化后的电路图，针对"包含达拉斯的州的首府"这一问题，以及一项干预实验（抑制德克萨斯州特征以改变输出）。 ## 模型确实会进行多步推理当你实际运行时，你可以观察到模型通过中间概念进行真正的多步推理。模型甚至在构思一首诗时，会提前"思考"未来的押韵候选词。问它 *"包含达拉斯的州的首府是什么"*，你可以按顺序观察到： - **达拉斯**特征被激活， - 这导致 **德克萨斯州**特征亮起， - 然后导致 **奥斯汀**特征亮起。这似乎相当清楚地表明，它是在追踪高层概念之间的语义关系——并在此过程中进行一种伪符号推理，类似于某些哲学家所描述的"高阶推理"。模型内部多步推理的示例，包括地理推断和写诗时的押韵前向规划。 ## 这一现象并非 LLM 独有这种现象不仅适用于语言模型。基于 MCTS 的系统（如 AlphaZero）也会收敛到人类可以识别的概念上。 DeepMind（2022）表明，AlphaZero 学会了与人类国际象棋概念（如"被将军"和"牵制棋子"）相一致的中间表示——完全自发，没有提供任何人类棋类知识。 DeepMind 2022 年的研究显示，AlphaZero 通过自我对弈学会了人类可识别的国际象棋概念。 ## 更好的理解 → 更好的算法分解模型的隐含推理有助于我们设计更好的学习算法。例如：Claude 3.5 Haiku 学习了一种计算小整数加法的算法，该算法 **并不** 完全对应人类的心算方式。它将问题拆分为多条并行路径——一边计算粗略的量级，另一边计算精确的个位数字——然后将它们重新组合，同时依赖记忆中的"查找表"特征。随之而来的问题是：我们能否识别出这一点，然后"引导"模型走向更好的算法？解释 Claude 3.5 Haiku 如何通过多条并行路径和查找表特征计算两位数加法（如 36+59）。 ## 模型拥有"潜意识" 值得注意的是，模型本身对于电路追踪所揭示的底层思维过程，未必具有**元认知**洞察。如果你让它解释它是如何相加两个数字的，它会讲述一个整洁、类人化的步骤——但这并非它实际运行的算法。无论是好是坏，模型都有一定程度的潜意识。而这正是我们能够窥探其内部的原因。一段对话，其中模型给出了一个类似人类的解释来说明如何计算 36+59，但这与电路追踪揭示的它实际使用的算法不同。 ## 为何重要机制可解释性是一项迷人且发展迅速的工作，在成绩单上已经取得了不少重大成果。与你十年前的机器学习教授可能告诉你的相反，在某些方面，这现在是我们从模型中提取的 **最多** 洞察。其意义重大——可用于识别模型的不当行为、引导模型，甚至设计更好的学习算法。原始推文请参见 X 上的帖子（https://x.com/mathemagic1an/status/2035850046735098065）。完整研究请阅读 Anthropic 的论文（https://transformer-circuits.pub/2025/attribution-graphs/biology.html）。 Jay Hack

LLMs 并非你所认为的黑箱

相似文章

LLMs知道自己何时出错。我对Anthropic的新“全局工作空间”论文进行了一项修复 [R]

@rao2z: \"当LLM输出逐步计划时，它会产生一种强烈的错觉，让你以为正在观看机器推理...

引用布莱恩·坎特里尔

LLMs为何在结构化知识上产生幻觉：对线性化表示推理的机制分析

LLMs 不擅长编写“氛围式”规范

提交意见反馈