标签
作者构建了一个自定义的llama.cpp服务器和Mikupad UI,以便在本地运行Anthropic的开源自然语言自编码器并实现激活引导。目前正在开发LoRA版本以降低内存需求。
Anthropic和Neuronpedia发布了关于自然语言自动编码器(NLA)的研究和工具,用户可以在Gemma 3生成token时查看其内部的“想法”。此次发布包括了Auto Verbalizer和Activation Reconstructor的模型权重,托管在Hugging Face和Neuronpedia上。
Anthropic 推出了自然语言自编码器(NLA),这是一种将内部 AI 激活状态转化为人类可读文本的方法,有助于更好地理解模型的思考过程,并通过揭示隐藏的推理逻辑来提升安全性。
Anthropic与Neuronpedia合作,在开放模型上发布了自然语言自编码器(NLAs),使研究人员能够获得这种可解释性工具的实践经验。