@mtschannen：过去几年，我的研究重点是跨模态统一模型与训练范式。今天我很激动……

X AI KOLs Timeline 2026/06/03 18:13 模型

gemma-4 multimodal encoder-free dense-model model-release google-deepmind

摘要

谷歌DeepMind研究员宣布发布Gemma 4 12B，一种无编码器的密集模型，可处理文本、图像和音频输入，延续了跨模态统一模型的研究工作。

过去几年，我的研究重点一直是跨模态统一模型与训练范式。今天我很激动地宣布，我们发布了与此主题一致的最新模型： Gemma 4 12B，一种无编码器的密集模型，可直接处理原始文本、图像和音频输入！ 1/ https://t.co/4J2JKCtzU5

查看原文

查看缓存全文

缓存时间: 2026/06/03 21:55

在过去几年里，我的研究重点是跨模态统一模型与训练范式。今天我很高兴地宣布，我们发布了与此主题一致的最新模型：

Gemma 4 12B，一个无需编码器的密集模型，可直接处理原始文本、图像和音频输入！

尽管没有编码器，Gemma 4 12B 在 Gemma 4 系列的性能前沿上表现良好。而且，与许多其他专注于视觉-语言任务的开源无编码器模型不同，Gemma 4 12B 在纯文本和智能体任务上也展现了强劲性能。

更重要的是，Gemma 4 12B 能够很好地适配具备 16GB VRAM 的 GPU 笔记本，因此非常适合构建本地多模态应用。

了解更多：

The Keyword：https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/…
开发者博客：https://developers.googleblog.com/gemma-4-12b-the-developer-guide/…
可视化指南：https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b…

3/3

相似文章