Gemma Scope 2:助力AI安全社区深入理解复杂的语言模型行为
摘要
DeepMind发布Gemma Scope 2,这是一套面向Gemma 3模型家族的开放可解释性工具套件,旨在帮助AI安全社区理解和调试幻觉、越狱等复杂的语言模型行为。
随着Gemma Scope 2的发布,面向语言模型的开放可解释性工具现已覆盖整个Gemma 3模型家族。
查看缓存全文
缓存时间: 2026/05/08 09:26
# Gemma Scope 2:助力 AI 安全社区深化对复杂语言模型行为的理解
来源:https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/
2025 年 12 月 19 日 | 责任与安全
宣布推出全新的开源语言模型可解释性工具套件
大型语言模型(LLMs)具备惊人的推理能力,但其内部决策过程在很大程度上仍不透明。当系统未按预期运行时,由于无法洞察其内部工作机制,很难精准定位其行为的根本原因。去年,我们推出了 Gemma Scope(https://deepmind.google/discover/blog/gemma-scope-helping-the-safety-community-shed-light-on-the-inner-workings-of-language-models/),这是一套旨在帮助研究人员理解 Gemma 2 内部运作的工具包。Gemma 2 是我们轻量级的开源模型系列。
今天,我们正式发布 Gemma Scope 2(https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/Gemma_Scope_2_Technical_Paper.pdf):一套面向所有 Gemma 3(https://deepmind.google/models/gemma/gemma-3/)模型尺寸的全面开源可解释性工具套件,覆盖从 270M 到 27B 参数的规模。这些工具使我们能够追溯模型整个"大脑"中潜在的风险。
据我们所知,这是迄今为止 AI 实验室发布的最大规模开源可解释性工具。Gemma Scope 2 的产出涉及存储约 110 PB 的数据,以及训练超过 1 万亿总参数。
随着 AI 的持续进步,我们期待 AI 研究社区利用 Gemma Scope 2 调试涌现的模型行为,借助这些工具更好地审计和调试 AI 智能体,并最终加速开发针对越狱、幻觉和阿谀奉承等问题的实用且稳健的安全干预措施。
我们的交互式 Gemma Scope 2(https://neuronpedia.org/gemma-scope-2)演示版本已开放体验,由 Neuronpedia 提供支持。
## Gemma Scope 2 的新特性
可解释性研究旨在理解 AI 模型的内部工作机制和所学算法。随着 AI 能力日益增强、结构日趋复杂,可解释性对于构建安全可靠的 AI 至关重要。
与其前身类似,Gemma Scope 2 如同 Gemma 语言模型家族的显微镜。通过结合稀疏自编码器(SAEs)和转码器(transcoders),它使研究人员能够深入模型内部,观察其"思考"的内容,以及这些"想法"如何形成并与模型行为产生关联。进而,这有助于更深入地研究越狱或其他与安全相关的 AI 行为,例如模型所陈述的推理与其内部状态之间的差异。
虽然最初的 Gemma Scope 已在关键安全领域推动了研究,如模型幻觉(https://openreview.net/forum?id=WCRQFlji2q)、识别模型掌握的秘密信息(https://arxiv.org/abs/2510.01070),以及训练更安全的模型(https://arxiv.org/abs/2507.16795),但 Gemma Scope 2 通过重大升级为更具雄心的研究提供支持:
- **大规模全面覆盖**:我们为整个 Gemma 3 家族(最高达 27B 参数)提供完整的工具套件,这对于研究仅在规模扩大时才会出现的涌现行为至关重要,例如此前(https://blog.google/technology/ai/google-gemma-ai-cancer-therapy-discovery/)由 27B 规模的 C2S Scale 模型发现的一种新的潜在癌症治疗通路。虽然 Gemma Scope 2 并非基于该模型训练,但这正是这些工具可能帮助理解的一类涌现行为的范例。
- **更精细的工具来解析复杂内部行为**:Gemma Scope 2 包含在 Gemma 3 家族每一层上训练的 SAE 和转码器。Skip-transcoders(https://arxiv.org/abs/2501.18823)和 Cross-layer transcoders(https://transformer-circuits.pub/2025/attribution-graphs/methods.html)使解析分布在模型各处的多步计算和算法变得更加容易。
- **先进的训练技术**:我们采用最先进的技术,特别是 Matryoshka 训练技术(https://arxiv.org/abs/2503.17547),该技术帮助 SAE 检测更有用的概念,并解决了 Gemma Scope 中发现的部分缺陷。
- **聊天机器人行为分析工具**:我们还提供了针对 Gemma 3 聊天场景调优版本的可解释性工具。这些工具支持对复杂的多步行为进行分析,如越狱、拒绝机制和思维链忠实度等。
相似文章
推出 Gemma 4 12B:一个统一的、无编码器的多模态模型
Google DeepMind 宣布推出 Gemma 4 12B,一种新颖的无编码器多模态 AI 模型,将视觉和音频直接集成到 LLM 主干中,在配备 16GB RAM 的笔记本电脑上提供高级推理和代理能力,以 Apache 2.0 许可证发布。
Gemma 4 发布:前沿多模态智能,端侧可用
Google DeepMind 发布 Gemma 4,这是一系列前沿多模态模型,已在 Hugging Face 上以 Apache 2 协议开源,针对端侧部署进行了优化,并支持多种推理框架。
Gemma 4:同等参数规模下能力最强的开源模型
Google DeepMind 发布 Gemma 4,这是其迄今为止能力最强的开源模型系列,专为高级推理和智能体工作流设计,在多种参数规模下均实现了极高的智能密度。
MedGemma:我们最强大的开源健康AI开发模型
Google DeepMind 发布了 MedGemma 27B Multimodal 和 MedSigLIP,扩充了其开源 Health AI Developer Foundations,加入了用于医学文本和影像任务的高性能、保护隐私的模型。
推出 Gemma 3
Google 推出了 Gemma 3,这是一套轻量级开源模型集合(1B、4B、12B、27B),设计用于在单个 GPU 或 TPU 上运行,支持 140+ 种语言、128k 上下文窗口和多模态功能。这些模型在保持高效性能的同时,性能超越了 Llama 3 和 DeepSeek-V3 等更大的竞品,适合边缘设备部署。