T5Gemma:一种新的编码器-解码器 Gemma 模型集合

Google DeepMind Blog 模型

摘要

Google 推出 T5Gemma,这是一组新的编码器-解码器模型,基于 Gemma 2 纯解码器架构改进而来,在摘要和翻译等任务上提供了更好的质量-效率权衡。

介绍 T5Gemma,这是一种新的编码器-解码器大型语言模型集合。
查看原文
查看缓存全文

缓存时间: 2026/05/08 09:47

# T5Gemma:全新编码器-解码器 Gemma 模型系列 来源:https://developers.googleblog.com/en/t5gemma/ 在大语言模型(LLM)快速发展的格局中,人们的目光主要聚焦于仅解码器架构。虽然这些模型在广泛的生成任务中展现出令人印象深刻的能力,但经典的编码器-解码器架构,如 T5(文本到文本迁移转换器),仍然是许多实际应用中的热门选择。由于编码器-解码器模型具备高推理效率、设计灵活性以及用于理解输入的更丰富的编码器表示,它们通常在摘要、翻译、问答等任务上表现出色。然而,强大的编码器-解码器架构却受到的关注相对较少。 今天,我们重新审视这一架构,并推出 T5Gemma(https://arxiv.org/abs/2504.06225),这是一个全新系列编码器-解码器 LLM,通过一种称为适配(adaptation)的技术,将预训练的仅解码器模型转换为编码器-解码器架构而开发。T5Gemma 基于 Gemma 2 框架,包含经过适配的 Gemma 2 2B 和 9B 模型,以及一组新训练的 T5 规模模型(Small、Base、Large 和 XL)。我们很高兴向社区发布预训练和指令微调的 T5Gemma 模型,为研究和开发解锁新的机遇。 ## 从仅解码器到编码器-解码器 在 T5Gemma 中,我们提出以下问题:*能否基于预训练的仅解码器模型构建一流的编码器-解码器模型?*我们通过探索一种称为*模型适配*的技术来回答这个问题。核心思想是使用已预训练的仅解码器模型的权重来初始化编码器-解码器模型的参数,然后通过 UL2 或基于 PrefixLM 的预训练进一步适配。 仅解码器模型 我们方法的概述,展示了如何使用预训练仅解码器模型的参数初始化一个新的编码器-解码器模型。 这种适配方法高度灵活,允许模型大小的创造性组合。例如,我们可以将大型编码器与小解码器配对(例如,9B 编码器配 2B 解码器),创建“不平衡”模型。这使我们能够针对特定任务微调质量-效率权衡,例如摘要任务,其中对输入的深入理解比生成输出的复杂性更为关键。 ## 走向更好的质量-效率权衡 *T5Gemma 表现如何?* 在我们的实验中,T5Gemma 模型实现了与其仅解码器 Gemma 对应模型相当或更好的性能,几乎在多个基准测试中主导了质量-推理效率帕累托前沿,例如衡量学习表示质量的 SuperGLUE。 编码器-解码器模型基准测试 编码器-解码器模型在给定推理计算水平下始终提供更好的性能,在多个基准测试中引领质量-效率前沿。 这种性能优势不仅仅是理论上的;它也转化为实际的质量和速度。在测量 GSM8K(数学推理)的实际延迟时,T5Gemma 取得了明显优势。例如,T5Gemma 9B-9B 在准确率上优于 Gemma 2 9B,但延迟相似。更令人印象深刻的是,T5Gemma 9B-2B 相比 2B-2B 模型显著提升了准确率,但其延迟几乎与小得多的 Gemma 2 2B 模型相同。最终,这些实验表明,编码器-解码器适配提供了一种灵活、强大的方式来平衡质量和推理速度。 ## 解锁基础与微调能力 *编码器-解码器 LLM 能否拥有与仅解码器模型类似的能力?* 是的,T5Gemma 在指令微调前后都展现出有前景的能力。 预训练后,T5Gemma 在需要推理的复杂任务上取得了令人印象深刻的提升。例如,T5Gemma 9B-9B 在 GSM8K(数学推理)上得分比原始 Gemma 2 9B 模型高出 9 分以上,在 DROP(阅读理解)上高出 4 分。这一模式表明,通过适配初始化的编码器-解码器架构有潜力创建更具能力、性能更佳的基础模型。 预训练模型的详细结果 预训练模型的详细结果,展示了与仅解码器 Gemma 2 相比,适配模型在多个推理密集型基准测试上取得了显著提升。 这些来自预训练的基础改进为指令微调后更显著的提升奠定了基础。例如,比较 Gemma 2 IT 与 T5Gemma IT,性能差距在各方面明显扩大。T5Gemma 2B-2B IT 的 MMLU 得分比 Gemma 2 2B 提升了近 12 分,其 GSM8K 得分从 58.0% 增加到 70.7%。适配架构不仅可能提供了更好的起点,而且更有效地响应指令微调,最终产生了一个能力更强、更有帮助的最终模型。 微调 + RLHF 模型的结果 微调 + RLHF 模型的详细结果,展示了后训练(post-training)能够显著放大编码器-解码器架构的性能优势。 ## 探索我们的模型:发布 T5Gemma 检查点 我们非常兴奋地展示这种通过从预训练的仅解码器 LLM(如 Gemma 2)适配来构建强大、通用编码器-解码器模型的新方法。为了帮助加速进一步研究并让社区能够在此基础上开展工作,我们很高兴发布一套 T5Gemma 检查点。 发布内容包括: - **多种大小:**T5 规模模型(Small、Base、Large 和 XL)的检查点,基于 Gemma 2 的模型(2B 和 9B),以及一个介于 T5 Large 和 T5 XL 之间的额外模型。 - **多种变体:**预训练和指令微调的模型。 - **灵活配置:**一个强大且高效的不平衡 9B-2B 检查点,用于探索编码器和解码器大小之间的权衡。 - **不同训练目标:**使用 PrefixLM 或 UL2 目标训练的模型,以提供最先进的生成性能或表示质量。 我们希望这些检查点能为研究模型架构、效率和性能提供宝贵资源。 ## T5Gemma 入门指南 我们迫不及待想看到您用 T5Gemma 构建的内容。有关更多信息,请参阅以下链接: - 通过阅读论文(https://arxiv.org/abs/2504.06225)了解该项目背后的研究。 - 下载模型:在 Hugging Face(https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86)和 Kaggle(https://www.kaggle.com/models/google/t5gemma)上找到模型权重。 - 探索模型能力或使用 Colab 笔记本(https://github.com/google-gemini/gemma-cookbook/blob/main/Research/%5BT5Gemma%5DExample.ipynb)为您的用例微调它们。 - 在 Vertex AI(https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/t5gemma)上使用模型运行推理。

相似文章

推出 Gemma 3

Google DeepMind Blog

Google 推出了 Gemma 3,这是一套轻量级开源模型集合(1B、4B、12B、27B),设计用于在单个 GPU 或 TPU 上运行,支持 140+ 种语言、128k 上下文窗口和多模态功能。这些模型在保持高效性能的同时,性能超越了 Llama 3 和 DeepSeek-V3 等更大的竞品,适合边缘设备部署。

google/gemma-4-31B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。

Google Gemma 4 12B

Product Hunt

谷歌的 Gemma 4 12B 模型通过无编码器架构实现本地多模态AI。

google/gemma-4-26B-A4B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4 MTP 草稿模型(drafter),适用于 Gemma 4 系列模型,通过推测解码(speculative decoding)实现显著的解码加速,同时保持完全一致的生成质量,适用于低延迟应用场景。