T5Gemma：一种新的编码器-解码器 Gemma 模型集合

Google DeepMind Blog 2025/10/25 18:14 模型

encoder-decoder gemma google-deepmind large-language-models model-adaptation open-source

摘要

Google 推出 T5Gemma，这是一组新的编码器-解码器模型，基于 Gemma 2 纯解码器架构改进而来，在摘要和翻译等任务上提供了更好的质量-效率权衡。

介绍 T5Gemma，这是一种新的编码器-解码器大型语言模型集合。

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:47

# T5Gemma：全新编码器-解码器 Gemma 模型系列来源：https://developers.googleblog.com/en/t5gemma/ 在大语言模型（LLM）快速发展的格局中，人们的目光主要聚焦于仅解码器架构。虽然这些模型在广泛的生成任务中展现出令人印象深刻的能力，但经典的编码器-解码器架构，如 T5（文本到文本迁移转换器），仍然是许多实际应用中的热门选择。由于编码器-解码器模型具备高推理效率、设计灵活性以及用于理解输入的更丰富的编码器表示，它们通常在摘要、翻译、问答等任务上表现出色。然而，强大的编码器-解码器架构却受到的关注相对较少。今天，我们重新审视这一架构，并推出 T5Gemma（https://arxiv.org/abs/2504.06225），这是一个全新系列编码器-解码器 LLM，通过一种称为适配（adaptation）的技术，将预训练的仅解码器模型转换为编码器-解码器架构而开发。T5Gemma 基于 Gemma 2 框架，包含经过适配的 Gemma 2 2B 和 9B 模型，以及一组新训练的 T5 规模模型（Small、Base、Large 和 XL）。我们很高兴向社区发布预训练和指令微调的 T5Gemma 模型，为研究和开发解锁新的机遇。 ## 从仅解码器到编码器-解码器在 T5Gemma 中，我们提出以下问题：*能否基于预训练的仅解码器模型构建一流的编码器-解码器模型？*我们通过探索一种称为*模型适配*的技术来回答这个问题。核心思想是使用已预训练的仅解码器模型的权重来初始化编码器-解码器模型的参数，然后通过 UL2 或基于 PrefixLM 的预训练进一步适配。仅解码器模型我们方法的概述，展示了如何使用预训练仅解码器模型的参数初始化一个新的编码器-解码器模型。这种适配方法高度灵活，允许模型大小的创造性组合。例如，我们可以将大型编码器与小解码器配对（例如，9B 编码器配 2B 解码器），创建“不平衡”模型。这使我们能够针对特定任务微调质量-效率权衡，例如摘要任务，其中对输入的深入理解比生成输出的复杂性更为关键。 ## 走向更好的质量-效率权衡 *T5Gemma 表现如何？* 在我们的实验中，T5Gemma 模型实现了与其仅解码器 Gemma 对应模型相当或更好的性能，几乎在多个基准测试中主导了质量-推理效率帕累托前沿，例如衡量学习表示质量的 SuperGLUE。编码器-解码器模型基准测试编码器-解码器模型在给定推理计算水平下始终提供更好的性能，在多个基准测试中引领质量-效率前沿。这种性能优势不仅仅是理论上的；它也转化为实际的质量和速度。在测量 GSM8K（数学推理）的实际延迟时，T5Gemma 取得了明显优势。例如，T5Gemma 9B-9B 在准确率上优于 Gemma 2 9B，但延迟相似。更令人印象深刻的是，T5Gemma 9B-2B 相比 2B-2B 模型显著提升了准确率，但其延迟几乎与小得多的 Gemma 2 2B 模型相同。最终，这些实验表明，编码器-解码器适配提供了一种灵活、强大的方式来平衡质量和推理速度。 ## 解锁基础与微调能力 *编码器-解码器 LLM 能否拥有与仅解码器模型类似的能力？* 是的，T5Gemma 在指令微调前后都展现出有前景的能力。预训练后，T5Gemma 在需要推理的复杂任务上取得了令人印象深刻的提升。例如，T5Gemma 9B-9B 在 GSM8K（数学推理）上得分比原始 Gemma 2 9B 模型高出 9 分以上，在 DROP（阅读理解）上高出 4 分。这一模式表明，通过适配初始化的编码器-解码器架构有潜力创建更具能力、性能更佳的基础模型。预训练模型的详细结果预训练模型的详细结果，展示了与仅解码器 Gemma 2 相比，适配模型在多个推理密集型基准测试上取得了显著提升。这些来自预训练的基础改进为指令微调后更显著的提升奠定了基础。例如，比较 Gemma 2 IT 与 T5Gemma IT，性能差距在各方面明显扩大。T5Gemma 2B-2B IT 的 MMLU 得分比 Gemma 2 2B 提升了近 12 分，其 GSM8K 得分从 58.0% 增加到 70.7%。适配架构不仅可能提供了更好的起点，而且更有效地响应指令微调，最终产生了一个能力更强、更有帮助的最终模型。微调 + RLHF 模型的结果微调 + RLHF 模型的详细结果，展示了后训练（post-training）能够显著放大编码器-解码器架构的性能优势。 ## 探索我们的模型：发布 T5Gemma 检查点我们非常兴奋地展示这种通过从预训练的仅解码器 LLM（如 Gemma 2）适配来构建强大、通用编码器-解码器模型的新方法。为了帮助加速进一步研究并让社区能够在此基础上开展工作，我们很高兴发布一套 T5Gemma 检查点。发布内容包括： - **多种大小：**T5 规模模型（Small、Base、Large 和 XL）的检查点，基于 Gemma 2 的模型（2B 和 9B），以及一个介于 T5 Large 和 T5 XL 之间的额外模型。 - **多种变体：**预训练和指令微调的模型。 - **灵活配置：**一个强大且高效的不平衡 9B-2B 检查点，用于探索编码器和解码器大小之间的权衡。 - **不同训练目标：**使用 PrefixLM 或 UL2 目标训练的模型，以提供最先进的生成性能或表示质量。我们希望这些检查点能为研究模型架构、效率和性能提供宝贵资源。 ## T5Gemma 入门指南我们迫不及待想看到您用 T5Gemma 构建的内容。有关更多信息，请参阅以下链接： - 通过阅读论文（https://arxiv.org/abs/2504.06225）了解该项目背后的研究。 - 下载模型：在 Hugging Face（https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86）和 Kaggle（https://www.kaggle.com/models/google/t5gemma）上找到模型权重。 - 探索模型能力或使用 Colab 笔记本（https://github.com/google-gemini/gemma-cookbook/blob/main/Research/%5BT5Gemma%5DExample.ipynb）为您的用例微调它们。 - 在 Vertex AI（https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/t5gemma）上使用模型运行推理。

T5Gemma：一种新的编码器-解码器 Gemma 模型集合

相似文章

推出 Gemma 3

google/gemma-4-31B-it-assistant

Google Gemma 4 12B

@googleaidevs: 我们正在发布Gemma 4 12B：这是一款统一的、无编码器的模型，将强大的多模态智能直接带到您的笔记本电脑上。

google/gemma-4-26B-A4B-it-assistant

提交意见反馈