我们能不能别再贬低DiffusionGemma了,转而动手hack它?
摘要
讨论优化DiffusionGemma推理、减少幻觉以及提高工具使用和代理性能的多种方法,包括熵约束采样、模式脚手架和去噪期间的检索。
考虑到 DiffusionGemma 上周才刚发布,大家都在抱怨其"朴素"推理产生的幻觉太多。已经有论文在尝试解决这个问题了,所以我让 AI 看看他们能否编译一个表格,展示哪些方法能让 dLLMs 不至于寸步难行(Mercury 已经做了类似的事情,但属于闭源领域)。**所以,如果 AI 的输出不足以让 llama.cpp /vLLM 或其他任何智能体开始着手将推理速度提升 3 倍,随时可以质问我**。**图例**:⚙️ = 即插即用(适用于当前的提示/配置)| 🛠️ = 封装器(编排/验证/检索)| 🔧 = 解码器(自定义采样器/运行时,收益最大)。|
|:-|:-|:-|:-|:-|:-|
|**层级 0:基础官方设定(必用基线 – 可解决 ~80% 的抱怨)**||||||
|1|熵界采样器 + 自适应停止|⚙️ 即插即用|提交熵值最低的 token,直到累积熵超过界限 (0.1);当 argmax 在 2 步以上稳定且平均熵 < 0.005 时停止|防止过早终止/过度优化导致的幻觉;根据任务复杂度动态调整步数;有效加速 2–3 倍;达到与 Qwen 级别质量匹配的核心路径|Google 模型卡 & HF 配置 (2026); Ben-Hamu 等人 (EB-Sampler, NeurIPS 2025, arXiv:2505.24857)|
|2|画布上限 + 任务调优熵|⚙️ 即插即用|保留 256 token 画布,但为工具调用(64–128)设置较短的 `max_new_tokens`;工具/确定性任务使用较低界限 (0.03–0.05),事实/推理任务使用较高界限 (0.15–0.2)|减少短结构化输出上的噪音/浪费;确定性工具选择;保留候选多样性以削减过早幻觉并改进推理|Google 服务示例 (2026); EB-Sampler 系列 + 幻觉模式论文 (2026)|
|3|思考模式 + 干净历史|⚙️ 即插即用|为推理/工具选择添加 `enable_thinking=True`;在多轮历史中**仅**保留最终的(非思考)回复|强烈提升工具选择、论据发现、指令遵循和推理能力;防止智能体中的上下文污染(与 Qwen 的关键差距)|Google 模型卡 (2026): "函数调用在思考模式下效果最佳";最佳实践说明|
|**层级 1:高 ROI 工作流与结构化输出(封装器 – 对工具使用和智能体至关重要)**||||||
|4|S³ 模式脚手架|⚙️ 即插即用 / 🛠️ 封装器|在输出上下文中预填正确的 JSON/函数骨架(括号、键、枚举、标点);模型仅填充值|利用双向全局细化,结构遵循率提升 +65%,保真度提升 +48%,幻觉减少 -17%;接近完美的 JSON/工具语法(弥补了与 Qwen 的主要差距)|Xiong 等人 (Self-Adaptive Schema Scaffolding, ~arXiv:2507.04504, 2025); 结构化输出扩散工作|
|5|丰富模式 + 验证后执行 + 草稿-序列化分离|🛠️ 封装器|使用详细的语义工具描述;在追加到执行或历史记录前始终进行解析和验证;使用 DiffusionGemma 进行规划,使用专用模型进行最终序列化|解决符号脆弱性、间接请求和模式漂移问题;将推理与精确语法分离;防止智能体中格式错误的执行|Google 函数调用指南 (2026); 智能体 dLLM 论文 (2025–2026 聚类)|
|6|忠实模式 + 中间去噪检索(类似 SARDI)|🛠️ 封装器|对于事实/工具驱动/推理任务:提高预算(60–80 步),在去噪过程中从低置信度的暂定 token 触发检索|应对 dLLM 特有的失败(过早终止、不完整去噪、上下文侵入);在高吞吐量下提高事实性、推理和多跳智能体性能|"Lost in Diffusion" 分析 (2026); 类似 SARDI 的去噪期间检索论文 (2025–2026)|
|7|绝不流式传输原始去噪状态|🛠️ 封装器|仅向用户显示最终收敛/已提交的跨度;流式输出仅用于调试|防止用户在使用中途看到杂乱无序的中间状态从而产生负面的使用体验(误以为出现幻觉)|Google HF 推理 notebook (2026)|
|**层级 2:高级采样、缓存与约束(解码器升级 – 缩小与 Qwen/SOTA 差距的最高 ROI)**||||||
|8|KLASS / 置信度感知提交|🔧 解码器|用时间步间的 token 级 KL 散度(或完整置信度分布选择)替换默认提交,以识别稳定 token|相比原始熵,稳定性检测更优;与贪心扩散相比,获得 2–2.78 倍挂钟加速 + 推理质量提升|Kim 等人 (KLASS 风格, NeurIPS 焦点 2025, arXiv:2511.05664); BACD/CadLLM/Prophet 聚类 (2026)|
|9|Fast-dLLM 系列(近似 KV + 并行解码)|🔧 解码器|移植分块近似 KV 缓存 + 置信度感知并行去掩码(Fast-dLLM 或 v2)|解决双向 KV 缓存问题;吞吐量最高可达 27.6 倍,准确率损失 <1–2%;在保持质量的同时实现多画布的实际使用|Wu 等人 (Fast-dLLM, arXiv:2505.22618, ICLR 2026 & v2)|
|10|SureLock / dKV-Cache / d²Cache 系列|🔧 解码器|锁定已收敛的 token(跳过 Q/FFN 但允许注意力计算);使用延迟条件或注意力感知的 KV 选择;压缩冗余掩码|减少 30–50% 的 FLOP 或实现 2–12 倍有效加速;对量化长上下文效率和智能体稳定性至关重要|Oba 等人 (SureLock 风格, ICLR 2026); Ma/Hu/Liu (dKV-Cache, FreeCache, d²Cache, Elastic-dLLM 聚类, 2025–2026)|
|11|CFG / 约束扩散 (CDD)|🔧 解码器|在采样过程中拒绝违反上下文无关语法/正则表达式的更新(用于最大概率有效字符串的增量填充或动态规划)|接近 100% 的 JSON/工具调用/代码语法正确率(~30% 的中位数开销);远优于仅提示/脚手架方法;缩小了与 SOTA 的工具使用差距|Cardei 等人 (Constrained Discrete Diffusion, arXiv:2503.09790, 2025); Mündler 等人 (CFG 变体, arXiv:2508.10111, ICLR 2026); DINGO 风格方法|
|12|重新掩码 / 审查-重新掩码-细化 (R3/CORE)|🔧 解码器|对于格式错误/可疑的跨度(错误的 JSON 字段、代码尾部、事实错误),仅将该跨度重置为 \[MASK\] 并重新去噪(避免覆盖损坏的上下文)|在工具调用、代码、JSON 和多轮智能体的精确 token 级别修复中表现出色;防止错误传播并提高推理一致性|Mounier 等人 (Review, Remask, Refine (R3), arXiv:2507.08018, ICML 2025); CORE 聚类 (2026)|
|**层级 3:可变长度、自验证与高级事实性(解码器/封装器 – 适用于复杂智能体和推理)**||||||
|13|DAEDAL / 长度感知动态画布 + DyStruct|🔧 解码器|从短处开始;通过早期 EOS/置信度或贝叶斯分块(中国餐馆过程)动态扩展;在长度分布明确后的第一个去噪步骤后裁剪|避免短工具调用的全 256 画布成本;适应不可预测的智能体输出的结构;减少强制长度幻觉并提高效率|DAEDAL/长度感知裁剪/DyStruct/LR-DLLM 聚类 (2025–2026); Block Diffusion 扩展 (Arriola 等人, arXiv:2503.09573, ICLR 2025 口头报告)|
|14|S2D2 / BlockBatch / 自奖励 SMC + Prophet 早期答案|🔧 解码器 / 🛠️ 封装器|相同模型用于大块草稿 + 小块(类似 AR)验证;多分支/轨迹采样与置信度重新加权;在初始步骤已知答案时提前提交|自推测减少 NFEs(速度提升可达 4–6 倍);多粒子提高硬推理/工具/智能体提示的质量和可靠性;减少不必要的细化|S2D2, BlockBatch, TCCF, AsyncLane, Self-Rewarding SMC, Prophet 聚类 (2025–2026); Block Diffusion (Arriola 等人, 2025)|
|15|类似 TDGNet 的轨迹幻觉检测器 + SARDI 检索|🔧 解码器 / 🛠️ 封装器|评分完整的去噪轨迹(演化的注意力图动态)而不仅仅是最终输出;拒绝不稳定的轨迹;在去噪过程中从暂定 token 触发检索|将事实性视为轨迹属性(而非终结点);更强的检测器 + 扩散原生检索,用于多跳 QA、推理和智能体可靠性;|
相似文章
DiffusionGemma:开发者指南 - Google Developers Blog
DiffusionGemma 是 Google DeepMind 推出的全新实验模型,可在 256 令牌画布上实现并行生成,在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文,并提供了用于解决数独的微调配方。
DiffusionGemma
Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。
google/diffusiongemma-26B-A4B-it
Google DeepMind 发布了 DiffusionGemma,这是一个 26B 参数的 Mixture-of-Experts 模型,使用离散扩散实现更快的文本生成,支持多模态输入和 256K token 上下文。
Diffusion Gemma 速度快4倍,但错误多6倍!
一项基准测试显示,Diffusion Gemma 比 Gemma4 速度快4倍,但事实性错误多6倍,尤其是在冷门话题上,为了生成流畅文本而牺牲了事实准确性。
DiffusionGemma: 文本生成速度提升4倍
Google推出DiffusionGemma,这是一个实验性的26B MoE开源模型,通过文本扩散技术,在GPU上实现高达4倍的文本生成速度提升,针对速度要求高的交互式本地工作流。