语言模型可以解释语言模型中的神经元

OpenAI Blog 论文

摘要

# 语言模型可以解释语言模型中的神经元 来源:[https://openai.com/index/language-models-can-explain-neurons-in-language-models/](https://openai.com/index/language-models-can-explain-neurons-in-language-models/) 虽然我们的大多数解释得分较低,但我们相信现在可以使用机器学习技术进一步改进我们生成解释的能力。例如,我们发现我们能够通过以下方式提高得分:- *迭代解释*。我们可以通过增加得分来

我们使用 GPT-4 自动为大型语言模型中神经元的行为编写解释,并对这些解释进行评分。我们发布了这些(不完美的)解释和 GPT-2 中每个神经元的评分数据集。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:57

# 语言模型可以解释语言模型中的神经元 来源:https://openai.com/index/language-models-can-explain-neurons-in-language-models/ 尽管我们的绝大多数解释得分较低,但我们相信现在可以使用机器学习技术进一步提高产生解释的能力。例如,我们发现我们能够通过以下方式提高得分: - *迭代改进解释。* 我们可以要求 GPT-4 想出可能的反例,然后根据它们的激活情况修改解释来提高得分。 - *使用更大的模型来提供解释。* 随着解释模型能力的增强,平均得分会上升。但是,即使是 GPT-4 给出的解释也不如人类的解释,这表明还有改进空间。 - *改变被解释模型的架构。* 使用不同激活函数训练的模型改进了解释得分。 我们正在开源 GPT-4 编写的 GPT-2 中全部 307,200 个神经元的解释数据集和可视化工具,以及使用公开可用模型进行解释和评分的代码(在 OpenAI API 上)(https://github.com/openai/automated-interpretability)。我们希望研究社区能够开发新技术来生成更高得分的解释,以及更好的工具来利用解释探索 GPT-2。 我们发现了 1,000 多个神经元,其解释得分至少为 0.8,这意味着根据 GPT-4 的评估,它们解释了该神经元大部分的顶级激活行为。这些解释良好的神经元大多没有特别的趣味。不过,我们也发现了许多 GPT-4 无法理解的有趣神经元。我们希望随着解释的改进,我们可能能够快速发现对模型计算有趣的定性理解。

相似文章

OpenAI 技术详解

OpenAI Blog

OpenAI 发布了一篇关于其核心技术的解读文章,详细介绍了 GPT-4 等语言模型是如何通过预训练(从海量文本数据中学习)和后训练(与人类价值观对齐和安全实践)开发而成的。文章强调了 OpenAI 的非营利使命结构,并解释了原始基础模型与经过优化、可用版本之间的区别。

更好的语言模型及其影响

OpenAI Blog

OpenAI 推出 GPT-2,这是一个拥有 15 亿参数的基于 Transformer 的语言模型,在 40GB 的互联网文本上进行训练,在语言建模基准上达到了最先进的性能,并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑,仅公开发布了较小的模型和技术论文,而非完整的训练模型。

语言模型是小样本学习器

OpenAI Blog

OpenAI 推出了 GPT-3,一个拥有 1750 亿参数的自回归语言模型,它在无需梯度更新或微调的情况下,在多种 NLP 任务上展现出强大的小样本学习能力,代表了语言模型应用范式的转变——仅通过文本交互就能适应新任务。

从 GPT-4 中提取概念

OpenAI Blog

OpenAI 推出稀疏自编码器作为从 GPT-4 等大型语言模型中提取和解释概念的方法,解决了理解神经网络行为这一根本挑战。他们发布了研究论文、代码和特征可视化工具,帮助研究人员大规模训练自编码器,并通过更好的可解释性提高 AI 安全性。