@rohanpaul_ai: atomic[.]chat 分享了一次揭示性的对比，展示了在自有硬件上运行本地开源权重LLM的情况。他们测试了…

X AI KOLs Following 2026/06/12 01:12 新闻

local-llms open-weight diffusion-models autoregressive-models benchmarking performance-comparison llm-speed

摘要

在单个H100（FP8）上对本地开源权重LLM进行的基准测试比较显示，DiffusionGemma速度提升4倍，但错误数量比Gemma4 26B A4B多6倍，突显了扩散模型与自回归模型在速度和准确性之间的权衡。

atomic[.]chat 分享了一次揭示性的对比，展示了在自有硬件上运行本地开源权重LLM的情况。他们在一台H100（FP8）上对新的DiffusionGemma（扩散文本模型）和Gemma4 26B A4B（自回归模型）进行了基准测试。 DiffusionGemma 的4倍速度改变了错误的形态。 - 自回归模型从左到右逐token移动，速度较慢，但每个新词都基于已经写好的确切文本。 - 扩散模型一次写入多个token，然后通过多次传递修改区块，因此感觉速度很快，因为模型无需等待token 1完成后再开始token 2。 atomic[.]chat，一款用于本地运行LLM的桌面应用

查看原文

查看缓存全文

缓存时间: 2026/06/12 02:50

atomic[.]chat 分享了一个揭示性的对比：在自有硬件上运行本地开源权重 LLM 的结果。

他们在单个 H100（FP8）上对新模型 DiffusionGemma（扩散文本模型）与 Gemma4 26B A4B（自回归模型）进行了基准测试。

DiffusionGemma 的 4 倍速度改变了错误的形态。

自回归模型从左到右逐 token 生成，速度较慢，但每个新词都依赖于已生成的准确文本。
扩散模型一次性写入多个 token，然后通过多轮迭代修正整块内容，因此模型无需等待 token 1 完成即可开始 token 2，从而带来更快的感受。

atomic[.]chat，一款用于本地运行 LLM 的桌面应用

atomic.chat (@atomic_chat_hq): Diffusion Gemma 速度快 4 倍，但错误多 6 倍！

我们在单个 H100（FP8）上对这款新的扩散 LLM 与其自回归孪生模型进行了基准测试。我们为每个模型分配了相同的三个任务：写一篇史蒂夫·乔布斯的传记、俄罗斯方块的历史以及 BeOS 的故事——每个下一个主题

@rohanpaul_ai: atomic[.]chat 分享了一次揭示性的对比，展示了在自有硬件上运行本地开源权重LLM的情况。他们测试了…

相似文章

@rohanpaul_ai: atomic[.]chat（一款本地运行大语言模型的桌面应用）在 MacBook 上进行了一场极具揭示性的本地 AI 智能体对比测试……

@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快，在 MacBook Pr… 上的 token 生成速度提升约 40%

@rohanpaul_ai: 来自atomic[.]chat的又一个本地LLM好消息，它可以在你的电脑上100%离线运行。他们刚刚展示了MTP（多…

@mervenoyann: DiffusionGemma 已发布，它受计算限制，因此相比其他 Gemma-4 模型快 4 倍（H100 上 1k tok/s），在……方面也很出色

在实际工作负载下，DiffusionGemma 与基准演示的表现截然不同

提交意见反馈