你现在可以读懂Gemma 3的想法了

Reddit r/LocalLLaMA 2026/05/08 01:44 论文

摘要

Anthropic和Neuronpedia发布了关于自然语言自动编码器（NLA）的研究和工具，用户可以在Gemma 3生成token时查看其内部的“想法”。此次发布包括了Auto Verbalizer和Activation Reconstructor的模型权重，托管在Hugging Face和Neuronpedia上。

Anthropic发布了新的研究，展示了LLM在使用NLA（即“自然语言自动编码器”）生成下一个token时的思考过程。NLA是一对LLM，能够将LLM针对特定token的内部思考转化为可读文本。Neuronpedia与Anthropic合作，也发布了Gemma 3 27b instruct的NLA模型权重：\- Auto Verbalizer (AV)：[https://huggingface.co/kitft/nla-gemma3-27b-L41-av](https://huggingface.co/kitft/nla-gemma3-27b-L41-av) \- Activation Reconstructor (AR)：[https://huggingface.co/kitft/nla-gemma3-27b-L41-ar](https://huggingface.co/kitft/nla-gemma3-27b-L41-ar) Neuronpedia目前在其网站上托管了这些模型：[https://www.neuronpedia.org/gemma-3-27b-it/nla](https://www.neuronpedia.org/gemma-3-27b-it/nla) 你可以访问上述Neuronpedia链接，向Gemma 3提问，然后点击任意token并选择“解释”，网站就会显示模型在生成该token时的思考内容。Auto Verbalizer（LLM）负责将LLM的激活状态翻译为可读文本，而Activation Reconstructor则用于验证AV生成的文本是否可以还原为LLM的激活状态。编辑（下面添加了示例）：我向Gemma 3提示“I am Elon musk”，在最初的token中，LLM就已经将对话标记为“虚构”和“讽刺”。[https://preview.redd.it/f648tz17utzg1.png?width=1827&format=png&auto=webp&s=4c9aca885f2f9383e026263b3c524ac2d15b1a89](https://preview.redd.it/f648tz17utzg1.png?width=1827&format=png&auto=webp&s=4c9aca885f2f9383e026263b3c524ac2d15b1a89)

查看原文

你现在可以读懂Gemma 3的想法了

相似文章

Gemma 3n 介绍：开发者指南

自然语言自编码器：将 Claude 的思考转化为文本

推出 Gemma 4 12B：一个统一的、无编码器的多模态模型

Gemma Scope 2：助力AI安全社区深入理解复杂的语言模型行为

@AnthropicAI：为了支持其他研究人员获得NLA的实践经验，我们与Neuronpedia合作，在…上发布了NLA

提交意见反馈