@osanseviero：非常激动地介绍 Gemma 4 12B！- 多模态：支持音频、图像、视频和文本输入 - 新颖架构：我们移除了多模态编码器…

X AI KOLs Timeline 2026/06/03 16:10 模型

multimodal gemma-4 novel-architecture lite-rt desktop-app

摘要

介绍 Gemma 4 12B，一款多模态模型，支持音频、图像、视频和文本输入，采用新颖的统一架构，以及由 LiteRT 驱动的新款 MacOS 桌面应用。

非常激动地介绍 Gemma 4 12B！💎 - 多模态：支持音频、图像、视频和文本输入 - 新颖架构：我们移除了多模态编码器，采用统一且简化的架构 - 由 LiteRT 驱动的新款 MacOS 桌面应用 - 支持 MTP 期待看到你用其构建的作品！https://t.co/De5id2XQfz

查看原文

查看缓存全文

缓存时间: 2026/06/03 17:52

超级兴奋地为您介绍 Gemma 4 12B！💎

期待看到你用它将创意变为现实！https://t.co/De5id2XQfz

相似文章

X AI KOLs Following

我们刚刚发布了 Gemma 4 12B，一个中型多模态模型，支持原生音频输入，仅需 16GB 内存，并以 Apache 2.0 许可证发布。

X AI KOLs Timeline

Google发布Gemma 4 12B，一款原生支持音频、无编码器的多模态模型，专为在笔记本电脑上本地运行而优化，采用Apache 2.0许可证。

Reddit r/artificial

Google 发布了 Gemma 4 12B，这是一款基于 Apache 2.0 开源协议的多模态模型，支持文本、视觉和音频处理，上下文窗口达 256K。本文提供了一份指南，介绍如何在 Mac 上使用 Ollama、LM Studio 或 llama.cpp 本地运行该模型。

X AI KOLs Following

Gemma 4 12B 已在 Apache 2.0 许可下发布，支持多模态输入（文本、图像、音频、视频），256K 上下文，内置思考以及原生工具调用，运行在 Red Hat OpenShift AI 上。

X AI KOLs Timeline

谷歌DeepMind研究员宣布发布Gemma 4 12B，一种无编码器的密集模型，可处理文本、图像和音频输入，延续了跨模态统一模型的研究工作。