Gemma Scope 2:助力AI安全社区深入理解复杂的语言模型行为

Google DeepMind Blog 工具

摘要

DeepMind发布Gemma Scope 2,这是一套面向Gemma 3模型家族的开放可解释性工具套件,旨在帮助AI安全社区理解和调试幻觉、越狱等复杂的语言模型行为。

随着Gemma Scope 2的发布,面向语言模型的开放可解释性工具现已覆盖整个Gemma 3模型家族。
查看原文
查看缓存全文

缓存时间: 2026/05/08 09:26

# Gemma Scope 2:助力 AI 安全社区深化对复杂语言模型行为的理解 来源:https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/ 2025 年 12 月 19 日 | 责任与安全 宣布推出全新的开源语言模型可解释性工具套件 大型语言模型(LLMs)具备惊人的推理能力,但其内部决策过程在很大程度上仍不透明。当系统未按预期运行时,由于无法洞察其内部工作机制,很难精准定位其行为的根本原因。去年,我们推出了 Gemma Scope(https://deepmind.google/discover/blog/gemma-scope-helping-the-safety-community-shed-light-on-the-inner-workings-of-language-models/),这是一套旨在帮助研究人员理解 Gemma 2 内部运作的工具包。Gemma 2 是我们轻量级的开源模型系列。 今天,我们正式发布 Gemma Scope 2(https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/Gemma_Scope_2_Technical_Paper.pdf):一套面向所有 Gemma 3(https://deepmind.google/models/gemma/gemma-3/)模型尺寸的全面开源可解释性工具套件,覆盖从 270M 到 27B 参数的规模。这些工具使我们能够追溯模型整个"大脑"中潜在的风险。 据我们所知,这是迄今为止 AI 实验室发布的最大规模开源可解释性工具。Gemma Scope 2 的产出涉及存储约 110 PB 的数据,以及训练超过 1 万亿总参数。 随着 AI 的持续进步,我们期待 AI 研究社区利用 Gemma Scope 2 调试涌现的模型行为,借助这些工具更好地审计和调试 AI 智能体,并最终加速开发针对越狱、幻觉和阿谀奉承等问题的实用且稳健的安全干预措施。 我们的交互式 Gemma Scope 2(https://neuronpedia.org/gemma-scope-2)演示版本已开放体验,由 Neuronpedia 提供支持。 ## Gemma Scope 2 的新特性 可解释性研究旨在理解 AI 模型的内部工作机制和所学算法。随着 AI 能力日益增强、结构日趋复杂,可解释性对于构建安全可靠的 AI 至关重要。 与其前身类似,Gemma Scope 2 如同 Gemma 语言模型家族的显微镜。通过结合稀疏自编码器(SAEs)和转码器(transcoders),它使研究人员能够深入模型内部,观察其"思考"的内容,以及这些"想法"如何形成并与模型行为产生关联。进而,这有助于更深入地研究越狱或其他与安全相关的 AI 行为,例如模型所陈述的推理与其内部状态之间的差异。 虽然最初的 Gemma Scope 已在关键安全领域推动了研究,如模型幻觉(https://openreview.net/forum?id=WCRQFlji2q)、识别模型掌握的秘密信息(https://arxiv.org/abs/2510.01070),以及训练更安全的模型(https://arxiv.org/abs/2507.16795),但 Gemma Scope 2 通过重大升级为更具雄心的研究提供支持: - **大规模全面覆盖**:我们为整个 Gemma 3 家族(最高达 27B 参数)提供完整的工具套件,这对于研究仅在规模扩大时才会出现的涌现行为至关重要,例如此前(https://blog.google/technology/ai/google-gemma-ai-cancer-therapy-discovery/)由 27B 规模的 C2S Scale 模型发现的一种新的潜在癌症治疗通路。虽然 Gemma Scope 2 并非基于该模型训练,但这正是这些工具可能帮助理解的一类涌现行为的范例。 - **更精细的工具来解析复杂内部行为**:Gemma Scope 2 包含在 Gemma 3 家族每一层上训练的 SAE 和转码器。Skip-transcoders(https://arxiv.org/abs/2501.18823)和 Cross-layer transcoders(https://transformer-circuits.pub/2025/attribution-graphs/methods.html)使解析分布在模型各处的多步计算和算法变得更加容易。 - **先进的训练技术**:我们采用最先进的技术,特别是 Matryoshka 训练技术(https://arxiv.org/abs/2503.17547),该技术帮助 SAE 检测更有用的概念,并解决了 Gemma Scope 中发现的部分缺陷。 - **聊天机器人行为分析工具**:我们还提供了针对 Gemma 3 聊天场景调优版本的可解释性工具。这些工具支持对复杂的多步行为进行分析,如越狱、拒绝机制和思维链忠实度等。

相似文章

MedGemma:我们最强大的开源健康AI开发模型

Google DeepMind Blog

Google DeepMind 发布了 MedGemma 27B Multimodal 和 MedSigLIP,扩充了其开源 Health AI Developer Foundations,加入了用于医学文本和影像任务的高性能、保护隐私的模型。

推出 Gemma 3

Google DeepMind Blog

Google 推出了 Gemma 3,这是一套轻量级开源模型集合(1B、4B、12B、27B),设计用于在单个 GPU 或 TPU 上运行,支持 140+ 种语言、128k 上下文窗口和多模态功能。这些模型在保持高效性能的同时,性能超越了 Llama 3 和 DeepSeek-V3 等更大的竞品,适合边缘设备部署。