从 GPT-4 中提取概念

OpenAI Blog 论文

摘要

OpenAI 推出稀疏自编码器作为从 GPT-4 等大型语言模型中提取和解释概念的方法,解决了理解神经网络行为这一根本挑战。他们发布了研究论文、代码和特征可视化工具,帮助研究人员大规模训练自编码器,并通过更好的可解释性提高 AI 安全性。

利用稀疏自编码器扩展的新技术,我们自动识别了 GPT-4 计算中的 1600 万个模式。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:47

# 从GPT-4中提取概念 来源:https://openai.com/index/extracting-concepts-from-gpt-4/ 与大多数人类创造的东西不同,我们并不真正理解神经网络的内部工作原理。例如,工程师可以根据汽车零部件的规格直接设计、评估和修复汽车,确保安全性和性能。然而,神经网络并不是直接设计的;我们设计的是训练它们的算法。由此产生的网络不太容易理解,也无法轻易分解成可识别的部分。这意味着我们无法像推理汽车安全那样来推理AI安全。 为了理解和解释神经网络,我们首先需要找到神经计算的有用的基本构建块。遗憾的是,语言模型内部的神经激活以不可预测的模式激活,似乎同时代表许多概念。它们的激活也很密集,这意味着每个激活在每个输入上都始终处于激发状态。但现实世界的概念非常稀疏——在任何给定的语境中,只有一小部分概念是相关的。这促使我们使用稀疏自编码器,一种在神经网络中识别对产生任何给定输出很重要的少数"特征"的方法,类似于一个人在推理一个情况时可能会想到的少数概念。它们的特征显示出稀疏激活模式,自然地与易于人类理解的概念一致,即使没有直接的可解释性激励。 虽然稀疏自编码器的研究令人兴奋,但前面还有很长的路要走,有许多尚未解决的挑战。短期内,我们希望我们找到的特征能够实际用于监控和引导语言模型的行为,并计划在我们的前沿模型中进行测试。最终,我们希望有一天,可解释性能够为我们提供推理模型安全性和鲁棒性的新方式,并通过对强大AI模型的行为提供有力保证来显著增加我们对它们的信任。 今天,我们分享了一篇[论文](https://arxiv.org/abs/2406.04093),详细说明了我们的实验和方法,我们希望这能使研究人员更容易大规模训练自编码器。我们发布了适用于GPT-2 small的完整自编码器套件,以及使用它们的[代码](https://github.com/openai/sparse_autoencoder)和[特征可视化工具](https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html),以便了解GPT-2和GPT-4特征可能对应的内容。

相似文章

OpenAI 技术详解

OpenAI Blog

OpenAI 发布了一篇关于其核心技术的解读文章,详细介绍了 GPT-4 等语言模型是如何通过预训练(从海量文本数据中学习)和后训练(与人类价值观对齐和安全实践)开发而成的。文章强调了 OpenAI 的非营利使命结构,并解释了原始基础模型与经过优化、可用版本之间的区别。

稀疏自编码器中概念学习与神经元解释的几何视角

arXiv cs.LG

本文提出了一个统一的几何框架,用于理解稀疏自编码器中的概念学习和神经元解释,将概念形式化为集合,并定义了检测、分离和近似。它提供了误差界、容量约束,并与形式概念分析建立了联系,同时在合成数据上进行了实验。