@AndreasPSteiner: 上周发布,仅在HuggingFace上就已超过400万次下载。这使得Gemma 4 12B成为最受欢迎的无编码器VLM…
摘要
谷歌的Gemma 4 12B模型于上周发布,在HuggingFace上已超过400万次下载,使其成为最受欢迎的无编码器视觉语言模型(VLM),也是首个支持无编码器音频输入的通用大语言模型。该模型在大小和性能之间取得平衡,可在本地笔记本电脑上运行,支持多步推理和智能体工作流。
查看缓存全文
缓存时间: 2026/06/15 15:04
上周发布,仅在HuggingFace上已有超过400万次下载 😊
这使得Gemma 4 12B成为最受欢迎的encoderfree VLM,且优势巨大。
此外,它还是首个支持无编码器音频输入的通用LLM!https://t.co/qT0noJtMSD
Sundar Pichai (@sundarpichai): 我们的新Gemma 4 12B模型在大小和性能之间取得了完美平衡:它可以在笔记本电脑上本地运行,同时支持强大的多步推理和智能体工作流。迫不及待想看看社区会用这个模型做什么!
相似文章
推出 Gemma 4 12B:一个统一的、无编码器的多模态模型
Google DeepMind 宣布推出 Gemma 4 12B,一种新颖的无编码器多模态 AI 模型,将视觉和音频直接集成到 LLM 主干中,在配备 16GB RAM 的笔记本电脑上提供高级推理和代理能力,以 Apache 2.0 许可证发布。
google/gemma-4-26B-A4B-it
Google DeepMind 发布 Gemma 4,一系列开放权重的多模态模型,参数量从2.3B到31B,支持文本、图像、视频和音频输入。模型具有256K上下文窗口,MoE和密集架构,增强的推理能力,并针对从移动设备到服务器的部署进行优化。
@googleaidevs: 我们正在发布Gemma 4 12B:这是一款统一的、无编码器的模型,将强大的多模态智能直接带到您的笔记本电脑上。
Google发布Gemma 4 12B,一款原生支持音频、无编码器的多模态模型,专为在笔记本电脑上本地运行而优化,采用Apache 2.0许可证。
google/gemma-4-31B-it-assistant
Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。
Gemma 4 发布:前沿多模态智能,端侧可用
Google DeepMind 发布 Gemma 4,这是一系列前沿多模态模型,已在 Hugging Face 上以 Apache 2 协议开源,针对端侧部署进行了优化,并支持多种推理框架。