@mtschannen:过去几年,我的研究重点是跨模态统一模型与训练范式。今天我很激动……
摘要
谷歌DeepMind研究员宣布发布Gemma 4 12B,一种无编码器的密集模型,可处理文本、图像和音频输入,延续了跨模态统一模型的研究工作。
查看缓存全文
缓存时间: 2026/06/03 21:55
在过去几年里,我的研究重点是跨模态统一模型与训练范式。今天我很高兴地宣布,我们发布了与此主题一致的最新模型:
Gemma 4 12B,一个无需编码器的密集模型,可直接处理原始文本、图像和音频输入!
1/
尽管没有编码器,Gemma 4 12B 在 Gemma 4 系列的性能前沿上表现良好。而且,与许多其他专注于视觉-语言任务的开源无编码器模型不同,Gemma 4 12B 在纯文本和智能体任务上也展现了强劲性能。
2/
更重要的是,Gemma 4 12B 能够很好地适配具备 16GB VRAM 的 GPU 笔记本,因此非常适合构建本地多模态应用。
了解更多:
- The Keyword:https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/…
- 开发者博客:https://developers.googleblog.com/gemma-4-12b-the-developer-guide/…
- 可视化指南:https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b…
3/3
相似文章
@googleaidevs: 我们正在发布Gemma 4 12B:这是一款统一的、无编码器的模型,将强大的多模态智能直接带到您的笔记本电脑上。
Google发布Gemma 4 12B,一款原生支持音频、无编码器的多模态模型,专为在笔记本电脑上本地运行而优化,采用Apache 2.0许可证。
google/gemma-4-31B-it-assistant
Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。
google/gemma-4-26B-A4B-it
Google DeepMind 发布 Gemma 4,一系列开放权重的多模态模型,参数量从2.3B到31B,支持文本、图像、视频和音频输入。模型具有256K上下文窗口,MoE和密集架构,增强的推理能力,并针对从移动设备到服务器的部署进行优化。
Gemma 4 发布:前沿多模态智能,端侧可用
Google DeepMind 发布 Gemma 4,这是一系列前沿多模态模型,已在 Hugging Face 上以 Apache 2 协议开源,针对端侧部署进行了优化,并支持多种推理框架。
Gemma 4:同等参数规模下能力最强的开源模型
Google DeepMind 发布 Gemma 4,这是其迄今为止能力最强的开源模型系列,专为高级推理和智能体工作流设计,在多种参数规模下均实现了极高的智能密度。