你现在可以读懂Gemma 3的想法了
摘要
Anthropic和Neuronpedia发布了关于自然语言自动编码器(NLA)的研究和工具,用户可以在Gemma 3生成token时查看其内部的“想法”。此次发布包括了Auto Verbalizer和Activation Reconstructor的模型权重,托管在Hugging Face和Neuronpedia上。
Anthropic发布了新的研究,展示了LLM在使用NLA(即“自然语言自动编码器”)生成下一个token时的思考过程。NLA是一对LLM,能够将LLM针对特定token的内部思考转化为可读文本。Neuronpedia与Anthropic合作,也发布了Gemma 3 27b instruct的NLA模型权重:\- Auto Verbalizer (AV):[https://huggingface.co/kitft/nla-gemma3-27b-L41-av](https://huggingface.co/kitft/nla-gemma3-27b-L41-av) \- Activation Reconstructor (AR):[https://huggingface.co/kitft/nla-gemma3-27b-L41-ar](https://huggingface.co/kitft/nla-gemma3-27b-L41-ar) Neuronpedia目前在其网站上托管了这些模型:[https://www.neuronpedia.org/gemma-3-27b-it/nla](https://www.neuronpedia.org/gemma-3-27b-it/nla) 你可以访问上述Neuronpedia链接,向Gemma 3提问,然后点击任意token并选择“解释”,网站就会显示模型在生成该token时的思考内容。Auto Verbalizer(LLM)负责将LLM的激活状态翻译为可读文本,而Activation Reconstructor则用于验证AV生成的文本是否可以还原为LLM的激活状态。编辑(下面添加了示例):我向Gemma 3提示“I am Elon musk”,在最初的token中,LLM就已经将对话标记为“虚构”和“讽刺”。[https://preview.redd.it/f648tz17utzg1.png?width=1827&format=png&auto=webp&s=4c9aca885f2f9383e026263b3c524ac2d15b1a89](https://preview.redd.it/f648tz17utzg1.png?width=1827&format=png&auto=webp&s=4c9aca885f2f9383e026263b3c524ac2d15b1a89)
相似文章
Gemma 3n 介绍:开发者指南
Google DeepMind 宣布全面发布 Gemma 3n,这是一款面向移动端的多模态 AI 模型,采用 MatFormer 架构,针对设备端效率进行了优化。此次发布包括 E2B 和 E4B 两种变体,它们内存占用低,同时在推理、编程和多语言任务中表现出色。
自然语言自编码器:将 Claude 的思考转化为文本
Anthropic 推出了自然语言自编码器(NLA),这是一种将内部 AI 激活状态转化为人类可读文本的方法,有助于更好地理解模型的思考过程,并通过揭示隐藏的推理逻辑来提升安全性。
推出 Gemma 4 12B:一个统一的、无编码器的多模态模型
Google DeepMind 宣布推出 Gemma 4 12B,一种新颖的无编码器多模态 AI 模型,将视觉和音频直接集成到 LLM 主干中,在配备 16GB RAM 的笔记本电脑上提供高级推理和代理能力,以 Apache 2.0 许可证发布。
Gemma Scope 2:助力AI安全社区深入理解复杂的语言模型行为
DeepMind发布Gemma Scope 2,这是一套面向Gemma 3模型家族的开放可解释性工具套件,旨在帮助AI安全社区理解和调试幻觉、越狱等复杂的语言模型行为。
@AnthropicAI:为了支持其他研究人员获得NLA的实践经验,我们与Neuronpedia合作,在…上发布了NLA
Anthropic与Neuronpedia合作,在开放模型上发布了自然语言自编码器(NLAs),使研究人员能够获得这种可解释性工具的实践经验。