语言模型可以解释语言模型中的神经元

OpenAI Blog 2023/05/09 07:00 论文

interpretability mechanistic-interpretability language-models neurons open-source gpt-4 explainability

摘要

# 语言模型可以解释语言模型中的神经元来源：[https://openai.com/index/language-models-can-explain-neurons-in-language-models/](https://openai.com/index/language-models-can-explain-neurons-in-language-models/) 虽然我们的大多数解释得分较低，但我们相信现在可以使用机器学习技术进一步改进我们生成解释的能力。例如，我们发现我们能够通过以下方式提高得分：- *迭代解释*。我们可以通过增加得分来

我们使用 GPT-4 自动为大型语言模型中神经元的行为编写解释，并对这些解释进行评分。我们发布了这些（不完美的）解释和 GPT-2 中每个神经元的评分数据集。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:57

# 语言模型可以解释语言模型中的神经元来源：https://openai.com/index/language-models-can-explain-neurons-in-language-models/ 尽管我们的绝大多数解释得分较低，但我们相信现在可以使用机器学习技术进一步提高产生解释的能力。例如，我们发现我们能够通过以下方式提高得分： - *迭代改进解释。* 我们可以要求 GPT-4 想出可能的反例，然后根据它们的激活情况修改解释来提高得分。 - *使用更大的模型来提供解释。* 随着解释模型能力的增强，平均得分会上升。但是，即使是 GPT-4 给出的解释也不如人类的解释，这表明还有改进空间。 - *改变被解释模型的架构。* 使用不同激活函数训练的模型改进了解释得分。我们正在开源 GPT-4 编写的 GPT-2 中全部 307,200 个神经元的解释数据集和可视化工具，以及使用公开可用模型进行解释和评分的代码（在 OpenAI API 上）(https://github.com/openai/automated-interpretability)。我们希望研究社区能够开发新技术来生成更高得分的解释，以及更好的工具来利用解释探索 GPT-2。我们发现了 1,000 多个神经元，其解释得分至少为 0.8，这意味着根据 GPT-4 的评估，它们解释了该神经元大部分的顶级激活行为。这些解释良好的神经元大多没有特别的趣味。不过，我们也发现了许多 GPT-4 无法理解的有趣神经元。我们希望随着解释的改进，我们可能能够快速发现对模型计算有趣的定性理解。

语言模型可以解释语言模型中的神经元

相似文章

OpenAI 技术详解

更好的语言模型及其影响

语言模型代理能否成为机械可解释性中有用的电路解释器？

语言模型是小样本学习器

从 GPT-4 中提取概念

提交意见反馈