标签
报告了在四块AMD 7900 XTX GPU上使用vllm运行DiffusionGemma 26B,生成时达到100 tps,总时间约为45-60 t/s(包括提示处理等待时间),并分享了性能指标和设置命令。
本文介绍了在RTX 5090 GPU上运行DiffusionGemma 26B A4B GGUF模型的基准测试结果及调优参数,通过优化温度设置和量化选择实现最高44%的加速。
NVIDIA 在 Hugging Face 上发布了一个名为 DiffusionGemma 的 26B MoE 多模态模型,采用 NVFP4 量化,在 Hopper 硬件上达到每秒超过 1100 个 token 的速度。
NVIDIA 优化了 Google DeepMind 的 DiffusionGemma——一个能并行生成 256 个令牌文本块的开放模型,在本地 RTX GPU、DGX Spark 和 DGX Station 系统上实现了高达 4 倍的性能提升。
DiffusionGemma 是 Google DeepMind 推出的全新实验模型,可在 256 令牌画布上实现并行生成,在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文,并提供了用于解决数独的微调配方。
Unsloth 发布了 Google DeepMind 的 DiffusionGemma (26B-A4B) 的 GGUF 量化版本,这是一种新的块扩散架构,可实现更快的文本生成,已准备好用于 llama.cpp。