@rohanpaul_ai: atomic[.]chat 分享了一次揭示性的对比,展示了在自有硬件上运行本地开源权重LLM的情况。他们测试了…

X AI KOLs Following 新闻

摘要

在单个H100(FP8)上对本地开源权重LLM进行的基准测试比较显示,DiffusionGemma速度提升4倍,但错误数量比Gemma4 26B A4B多6倍,突显了扩散模型与自回归模型在速度和准确性之间的权衡。

atomic[.]chat 分享了一次揭示性的对比,展示了在自有硬件上运行本地开源权重LLM的情况。 他们在一台H100(FP8)上对新的DiffusionGemma(扩散文本模型)和Gemma4 26B A4B(自回归模型)进行了基准测试。 DiffusionGemma 的4倍速度改变了错误的形态。 - 自回归模型从左到右逐token移动,速度较慢,但每个新词都基于已经写好的确切文本。 - 扩散模型一次写入多个token,然后通过多次传递修改区块,因此感觉速度很快,因为模型无需等待token 1完成后再开始token 2。 atomic[.]chat,一款用于本地运行LLM的桌面应用
查看原文
查看缓存全文

缓存时间: 2026/06/12 02:50

atomic[.]chat 分享了一个揭示性的对比:在自有硬件上运行本地开源权重 LLM 的结果。

他们在单个 H100(FP8)上对新模型 DiffusionGemma(扩散文本模型)与 Gemma4 26B A4B(自回归模型)进行了基准测试。

DiffusionGemma 的 4 倍速度改变了错误的形态。

  • 自回归模型从左到右逐 token 生成,速度较慢,但每个新词都依赖于已生成的准确文本。
  • 扩散模型一次性写入多个 token,然后通过多轮迭代修正整块内容,因此模型无需等待 token 1 完成即可开始 token 2,从而带来更快的感受。

atomic[.]chat,一款用于本地运行 LLM 的桌面应用

atomic.chat (@atomic_chat_hq): Diffusion Gemma 速度快 4 倍,但错误多 6 倍!

我们在单个 H100(FP8)上对这款新的扩散 LLM 与其自回归孪生模型进行了基准测试。我们为每个模型分配了相同的三个任务:写一篇史蒂夫·乔布斯的传记、俄罗斯方块的历史以及 BeOS 的故事——每个下一个主题

相似文章