@osanseviero:非常激动地介绍 Gemma 4 12B!- 多模态:支持音频、图像、视频和文本输入 - 新颖架构:我们移除了多模态编码器…
摘要
介绍 Gemma 4 12B,一款多模态模型,支持音频、图像、视频和文本输入,采用新颖的统一架构,以及由 LiteRT 驱动的新款 MacOS 桌面应用。
非常激动地介绍 Gemma 4 12B!💎
- 多模态:支持音频、图像、视频和文本输入
- 新颖架构:我们移除了多模态编码器,采用统一且简化的架构
- 由 LiteRT 驱动的新款 MacOS 桌面应用
- 支持 MTP
期待看到你用其构建的作品!https://t.co/De5id2XQfz
查看缓存全文
缓存时间: 2026/06/03 17:52
超级兴奋地为您介绍 Gemma 4 12B!💎
- 多模态:支持音频、图像、视频和文本输入
- 全新架构:我们移除了多模态编码器,采用统一精简架构
- 全新基于 LiteRT 的 macOS 桌面应用
- 支持 MTP
期待看到你用它将创意变为现实!https://t.co/De5id2XQfz
相似文章
@_philschmid:我们刚刚发布了 Gemma 4 12B!这是我们首个具备原生音频输入的中型模型。Gemma 4 12B 是一个统一的、无需编码器的多模态模型。
我们刚刚发布了 Gemma 4 12B,一个中型多模态模型,支持原生音频输入,仅需 16GB 内存,并以 Apache 2.0 许可证发布。
@googleaidevs: 我们正在发布Gemma 4 12B:这是一款统一的、无编码器的模型,将强大的多模态智能直接带到您的笔记本电脑上。
Google发布Gemma 4 12B,一款原生支持音频、无编码器的多模态模型,专为在笔记本电脑上本地运行而优化,采用Apache 2.0许可证。
谷歌的 Gemma 4 12B 刚刚发布 —— 下面教你如何在 Mac 上本地运行它
Google 发布了 Gemma 4 12B,这是一款基于 Apache 2.0 开源协议的多模态模型,支持文本、视觉和音频处理,上下文窗口达 256K。本文提供了一份指南,介绍如何在 Mac 上使用 Ollama、LM Studio 或 llama.cpp 本地运行该模型。
@RedHat_AI: Gemma 4 12B 今日发布。Apache 2.0,多模态:文本、图像、音频和视频。256K 上下文,内置思考,原生…
Gemma 4 12B 已在 Apache 2.0 许可下发布,支持多模态输入(文本、图像、音频、视频),256K 上下文,内置思考以及原生工具调用,运行在 Red Hat OpenShift AI 上。
@mtschannen:过去几年,我的研究重点是跨模态统一模型与训练范式。今天我很激动……
谷歌DeepMind研究员宣布发布Gemma 4 12B,一种无编码器的密集模型,可处理文本、图像和音频输入,延续了跨模态统一模型的研究工作。