@AndreasPSteiner: 上周发布,仅在HuggingFace上就已超过400万次下载。这使得Gemma 4 12B成为最受欢迎的无编码器VLM…

X AI KOLs Timeline 模型

摘要

谷歌的Gemma 4 12B模型于上周发布,在HuggingFace上已超过400万次下载,使其成为最受欢迎的无编码器视觉语言模型(VLM),也是首个支持无编码器音频输入的通用大语言模型。该模型在大小和性能之间取得平衡,可在本地笔记本电脑上运行,支持多步推理和智能体工作流。

上周发布,仅在HuggingFace上就已超过400万次下载😊 这使得Gemma 4 12B成为迄今为止最受欢迎的无编码器VLM,且遥遥领先。 此外,它还是首个支持无编码器音频输入的通用大语言模型!https://t.co/qT0noJtMSD
查看原文
查看缓存全文

缓存时间: 2026/06/15 15:04

上周发布,仅在HuggingFace上已有超过400万次下载 😊

这使得Gemma 4 12B成为最受欢迎的encoderfree VLM,且优势巨大。

此外,它还是首个支持无编码器音频输入的通用LLM!https://t.co/qT0noJtMSD

Sundar Pichai (@sundarpichai): 我们的新Gemma 4 12B模型在大小和性能之间取得了完美平衡:它可以在笔记本电脑上本地运行,同时支持强大的多步推理和智能体工作流。迫不及待想看看社区会用这个模型做什么!

相似文章

google/gemma-4-26B-A4B-it

Hugging Face Models Trending

Google DeepMind 发布 Gemma 4,一系列开放权重的多模态模型,参数量从2.3B到31B,支持文本、图像、视频和音频输入。模型具有256K上下文窗口,MoE和密集架构,增强的推理能力,并针对从移动设备到服务器的部署进行优化。

google/gemma-4-31B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。