@RedHat_AI: Gemma 4 12B 今日发布。Apache 2.0，多模态：文本、图像、音频和视频。256K 上下文，内置思考，原生…

X AI KOLs Following 2026/06/04 00:25 模型

gemma-4 multimodal open-source apache-2.0 tool-calling red-hat

摘要

Gemma 4 12B 已在 Apache 2.0 许可下发布，支持多模态输入（文本、图像、音频、视频），256K 上下文，内置思考以及原生工具调用，运行在 Red Hat OpenShift AI 上。

Gemma 4 12B 今日发布。Apache 2.0，多模态：文本、图像、音频和视频。256K 上下文，内置思考，原生工具调用。在 Red Hat OpenShift AI 上通过 @vllm_project 从 Day 0 开始运行：https://t.co/K2BEWAWE1M

查看原文

查看缓存全文

缓存时间: 2026/06/04 01:57

Gemma 4 12B 今日发布。采用 Apache 2.0 许可，多模态：文本、图像、音频和视频。256K 上下文窗口，内置推理能力，原生工具调用。

在 Red Hat OpenShift AI 上使用 @vllm_project 于 Day 0 运行：https://t.co/K2BEWAWE1M

相似文章

Hugging Face Blog

Google DeepMind 发布 Gemma 4，这是一系列前沿多模态模型，已在 Hugging Face 上以 Apache 2 协议开源，针对端侧部署进行了优化，并支持多种推理框架。

X AI KOLs Following

我们刚刚发布了 Gemma 4 12B，一个中型多模态模型，支持原生音频输入，仅需 16GB 内存，并以 Apache 2.0 许可证发布。

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4，这是一个开源权重的多模态模型家族，支持文本、图像、视频和音频，具备增强的推理和编码能力，并通过多令牌预测（MTP）实现高达 2 倍的解码速度提升。

X AI KOLs Timeline

介绍 Gemma 4 12B，一款多模态模型，支持音频、图像、视频和文本输入，采用新颖的统一架构，以及由 LiteRT 驱动的新款 MacOS 桌面应用。

Reddit r/artificial

Google 发布了 Gemma 4 12B，这是一款基于 Apache 2.0 开源协议的多模态模型，支持文本、视觉和音频处理，上下文窗口达 256K。本文提供了一份指南，介绍如何在 Mac 上使用 Ollama、LM Studio 或 llama.cpp 本地运行该模型。