你现在可以读懂Gemma 3的想法了

Reddit r/LocalLLaMA 论文

摘要

Anthropic和Neuronpedia发布了关于自然语言自动编码器(NLA)的研究和工具,用户可以在Gemma 3生成token时查看其内部的“想法”。此次发布包括了Auto Verbalizer和Activation Reconstructor的模型权重,托管在Hugging Face和Neuronpedia上。

Anthropic发布了新的研究,展示了LLM在使用NLA(即“自然语言自动编码器”)生成下一个token时的思考过程。NLA是一对LLM,能够将LLM针对特定token的内部思考转化为可读文本。Neuronpedia与Anthropic合作,也发布了Gemma 3 27b instruct的NLA模型权重:\- Auto Verbalizer (AV):[https://huggingface.co/kitft/nla-gemma3-27b-L41-av](https://huggingface.co/kitft/nla-gemma3-27b-L41-av) \- Activation Reconstructor (AR):[https://huggingface.co/kitft/nla-gemma3-27b-L41-ar](https://huggingface.co/kitft/nla-gemma3-27b-L41-ar) Neuronpedia目前在其网站上托管了这些模型:[https://www.neuronpedia.org/gemma-3-27b-it/nla](https://www.neuronpedia.org/gemma-3-27b-it/nla) 你可以访问上述Neuronpedia链接,向Gemma 3提问,然后点击任意token并选择“解释”,网站就会显示模型在生成该token时的思考内容。Auto Verbalizer(LLM)负责将LLM的激活状态翻译为可读文本,而Activation Reconstructor则用于验证AV生成的文本是否可以还原为LLM的激活状态。编辑(下面添加了示例):我向Gemma 3提示“I am Elon musk”,在最初的token中,LLM就已经将对话标记为“虚构”和“讽刺”。[https://preview.redd.it/f648tz17utzg1.png?width=1827&format=png&auto=webp&s=4c9aca885f2f9383e026263b3c524ac2d15b1a89](https://preview.redd.it/f648tz17utzg1.png?width=1827&format=png&auto=webp&s=4c9aca885f2f9383e026263b3c524ac2d15b1a89)
查看原文

相似文章

Gemma 3n 介绍:开发者指南

Google DeepMind Blog

Google DeepMind 宣布全面发布 Gemma 3n,这是一款面向移动端的多模态 AI 模型,采用 MatFormer 架构,针对设备端效率进行了优化。此次发布包括 E2B 和 E4B 两种变体,它们内存占用低,同时在推理、编程和多语言任务中表现出色。

自然语言自编码器:将 Claude 的思考转化为文本

Hacker News Top

Anthropic 推出了自然语言自编码器(NLA),这是一种将内部 AI 激活状态转化为人类可读文本的方法,有助于更好地理解模型的思考过程,并通过揭示隐藏的推理逻辑来提升安全性。