@mtschannen:过去几年,我的研究重点是跨模态统一模型与训练范式。今天我很激动……

X AI KOLs Timeline 模型

摘要

谷歌DeepMind研究员宣布发布Gemma 4 12B,一种无编码器的密集模型,可处理文本、图像和音频输入,延续了跨模态统一模型的研究工作。

过去几年,我的研究重点一直是跨模态统一模型与训练范式。今天我很激动地宣布,我们发布了与此主题一致的最新模型: Gemma 4 12B,一种无编码器的密集模型,可直接处理原始文本、图像和音频输入! 1/ https://t.co/4J2JKCtzU5
查看原文
查看缓存全文

缓存时间: 2026/06/03 21:55

在过去几年里,我的研究重点是跨模态统一模型与训练范式。今天我很高兴地宣布,我们发布了与此主题一致的最新模型:

Gemma 4 12B,一个无需编码器的密集模型,可直接处理原始文本、图像和音频输入!

1/

尽管没有编码器,Gemma 4 12B 在 Gemma 4 系列的性能前沿上表现良好。而且,与许多其他专注于视觉-语言任务的开源无编码器模型不同,Gemma 4 12B 在纯文本和智能体任务上也展现了强劲性能。

2/

更重要的是,Gemma 4 12B 能够很好地适配具备 16GB VRAM 的 GPU 笔记本,因此非常适合构建本地多模态应用。

了解更多:

  • The Keyword:https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/…
  • 开发者博客:https://developers.googleblog.com/gemma-4-12b-the-developer-guide/…
  • 可视化指南:https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b…

3/3

相似文章

google/gemma-4-31B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。

google/gemma-4-26B-A4B-it

Hugging Face Models Trending

Google DeepMind 发布 Gemma 4,一系列开放权重的多模态模型,参数量从2.3B到31B,支持文本、图像、视频和音频输入。模型具有256K上下文窗口,MoE和密集架构,增强的推理能力,并针对从移动设备到服务器的部署进行优化。