通过稀疏电路理解神经网络

OpenAI Blog 2025/11/13 10:00 论文

摘要

OpenAI 研究人员提出了一种训练稀疏神经网络的方法,通过强制大部分权重为零使其更易于解释,从而发现能够解释模型行为的小型解耦电路,同时保持性能。这项工作旨在推进机制可解释性,作为对稠密网络事后分析的补充,并支持 AI 安全目标。

OpenAI 正在探索机制可解释性,以理解神经网络如何进行推理。我们新的稀疏模型方法可以使 AI 系统更加透明,并支持更安全、更可靠的行为。

查看缓存全文

缓存时间: 2026/04/20 14:49

# 通过稀疏电路理解神经网络来源：https://openai.com/index/understanding-neural-networks-through-sparse-circuits/ 神经网络驱动了当今最强大的AI系统，但它们仍然难以理解。我们不是用明确的逐步指令来编写这些模型，而是通过调整数十亿个内部连接（即"权重"）来训练它们，直到它们掌握某项任务。我们设计了训练规则，但没有设计涌现出的具体行为，其结果是一个密集的连接网络，人类难以破译。随着AI系统变得更加强大并对科学、教育和医疗保健中的决策产生真实影响，理解它们如何工作至关重要。**可解释性**是指帮助我们理解为什么模型生成特定输出的方法。我们可能通过许多方式来实现这一目标。例如，推理模型有动力在得出最终答案的过程中解释其工作。**思维链可解释性**利用这些解释来监控模型的行为。这立即很有用：当前推理模型的思维链似乎对于欺骗等令人担忧的行为是有信息的。然而，完全依赖这一特性是一个脆弱的策略，这种方法可能会随时间推移而失效。另一方面，**机制可解释性**是本工作的重点，它试图彻底对模型的计算进行逆向工程。迄今为止，它的直接用处较少，但原则上可以提供对模型行为的更完整解释。通过在最细粒度水平上寻求解释模型行为，机制可解释性可以做出更少的假设，给我们更多的信心。但从低级细节到复杂行为解释的路径要长得多、困难得多。可解释性支持几个关键目标，例如实现更好的监督，并为不安全或战略性错位的行为提供早期警告信号。它还补充了我们的其他安全工作，如可扩展监督、对抗性训练和红队测试。在这项工作中，我们展示了我们可以经常以使模型更容易解释的方式训练模型。我们将我们的工作视为对密集网络事后分析的有前景的补充。这是一个非常雄心勃勃的赌注；从我们的工作到完全理解我们最强大模型的复杂行为还有很长的路要走。不过，对于简单的行为，我们发现使用我们的方法训练的稀疏模型包含小型、解耦的电路，这些电路既可理解又足以执行该行为。这表明可能存在一条可行的路径来训练更大系统，我们可以理解其机制。以前的机制可解释性工作从密集、纠缠的网络开始，并尝试将其解开。在这些网络中，每个神经元连接到数千个其他神经元。大多数神经元似乎执行许多不同的函数，使其看似不可能理解。但如果我们训练了未纠缠的神经网络，拥有更多的神经元，但每个神经元只有几十个连接呢？那么生成的网络可能会更简单，更容易理解。这是我们工作的核心研究赌注。考虑到这一原则，我们训练了与GPT-2等现有语言模型非常相似的架构的语言模型，只有一个小的修改：我们强制模型的绝大多数权重为零。这限制了模型只使用神经元之间的极少数可能连接。这是一个简单的改变，我们认为它大大解耦了模型的内部计算。在正常的密集神经网络中，每个神经元连接到下一层的每个神经元。在我们的稀疏模型中，每个神经元只连接到下一层的几个神经元。我们希望这使神经元和整个网络更容易理解。我们希望衡量我们的稀疏模型计算解耦的程度。我们考虑了各种简单的模型行为，并检查了我们是否可以隔离负责每种行为的模型部分——我们称之为电路。我们手工精选了一套简单的算法任务。对于每一个，我们将模型剪枝到仍能执行任务的最小电路，并检查该电路有多简单。（详见我们的论文 (https://arxiv.org/abs/2511.13653)。）我们发现，通过训练更大更稀疏的模型，我们可以产生越来越能干的模型，其电路也越来越简单。我们绘制了跨模型的可解释性与能力的关系（左下方更好）。对于固定大小的稀疏模型，增加稀疏性——将更多权重设置为零——会降低能力但增加可解释性。扩大模型大小会向外移动这个前沿，表明我们可以构建既能干又可解释的更大模型。为了说得更具体，考虑一个在Python代码上训练的模型必须用正确的引号类型完成字符串的任务。在Python中，'hello'必须以单引号结尾，"hello"必须以双引号结尾。该模型可以通过记住打开字符串的引号类型并在末尾重现它来解决此问题。我们最可解释的模型似乎包含解耦的电路，实现了完全相同的算法。稀疏transformer中的示例电路，预测是否以单引号或双引号结束字符串。该电路使用仅五个残差通道（垂直灰线）、第0层中的两个MLP神经元，以及第10层中的一个注意力查询-密钥通道和一个值通道。该模型(1)在一个残差通道中编码单引号，在另一个通道中编码双引号；(2)使用MLP层将其转换为一个通道，该通道检测任何引号，另一个通道在单引号和双引号之间分类；(3)使用注意力操作忽略中间标记，找到前一个引号，并将其类型复制到最后一个标记；(4)预测匹配的结束引号。在我们的定义中，上面显示的确切连接足以执行任务——如果我们移除模型的其余部分，这个小电路仍然可以工作。它们也是必要的——删除这几条边会导致模型失败。我们还查看了一些更复杂的行为。我们针对这些行为的电路（例如下面显示的变量绑定）更难完全解释。即便如此，我们仍然可以实现相对简单的部分解释，这些解释能够预测模型行为。另一个示例电路，细节较少。要确定称为`current`的变量的类型，一个注意力操作在定义该变量时将变量名复制到`set()`标记中，另一个后续操作将该类型从`set()`标记复制到该变量的后续使用中，使模型能够推断出正确的下一个标记。这项工作是朝着更大目标的第一步：使模型计算更容易理解。但还有很长的路要走。我们的稀疏模型远小于最前沿的模型，其计算的很大一部分仍然未被解释。接下来，我们希望将我们的技术扩展到更大的模型，并解释模型行为的更多方面。通过枚举具有能力的稀疏模型中更复杂推理的电路基序，我们可以开发一种理解，帮助我们更好地针对最前沿模型的调查。为了克服训练稀疏模型的低效率，我们看到两条前进的道路。一条是从现有的密集模型中提取稀疏电路，而不是从头开始训练稀疏模型。密集模型的部署本质上比稀疏模型更高效。另一条路是开发更高效的技术来训练可解释性模型，这可能更容易投入生产。请注意，我们这里的发现不能保证这种方法会扩展到更强大的系统，但这些早期结果是有希望的。我们的目标是逐步扩展我们可以可靠解释的模型数量，以及构建能够使未来系统更容易分析、调试和评估的工具。

通过稀疏电路理解神经网络

相似文章

通过 L₀ 正则化学习稀疏神经网络

使用稀疏Transformer进行生成建模

从 GPT-4 中提取概念

通过教学实现可解释的机器学习

权重归一化：加速深度神经网络训练的简单重参数化方法

提交意见反馈