标签
vLLM宣布原生支持Google DeepMind的DiffusionGemma,这是一个260亿参数的离散扩散语言模型,能够并行生成256个token的块,在单个H200上实现1200+ tok/s的低延迟推理。
DiffusionGemma 已发布;它受计算限制,比其它 Gemma-4 模型快 4 倍(H100 上 1k tok/s),擅长编码任务,包括 3D 生成和前端开发。
Google推出DiffusionGemma,这是一个实验性的26B MoE开源模型,通过文本扩散技术,在GPU上实现高达4倍的文本生成速度提升,针对速度要求高的交互式本地工作流。