面向交互式放射报告起草的离散扩散语言模型

Hugging Face Daily Papers 2026/07/01 00:00 论文

摘要

本文适配了一个混合专家扩散语言模型DiffusionGemma-26B用于交互式放射报告起草，结果表明其在医学视觉问答中匹配或超越自回归模型，解码速度提高3.5-4.4倍，并具备双向填充能力。

扩散语言模型通过双向去噪令牌画布来生成文本，而非从左到右逐个生成令牌，现已与自回归（AR）生成相匹敌。然而，医学基础模型几乎全部仍是自回归的。我们适配了一个混合专家扩散语言模型DiffusionGemma-26B，并在医学视觉问答数据集上使用相同的LoRA方案，将其与同尺寸的AR兄弟模型Gemma-4-26B进行基准测试，由对冗长鲁棒的LLM裁判评分。扩散模型在所有数据集上匹配或超越AR，微调后的模型（3.8B活跃参数）与前沿视觉-语言模型相竞争；其解码速度也快3.5-4.4倍。除了这一性能持平外，扩散模型还提供了AR所缺乏的起草能力：任意顺序填充。由于画布是双向去噪的，放射科医生可以固定报告片段，让模型填充它们之间的文本，这是扩散模型固有的操作，而自回归模型则表现不佳。这适用于真实报告，这些报告在不同临床医生和机构之间往往简洁或不一致。

查看原文

查看缓存全文

缓存时间: 2026/07/03 03:52

论文页面 - 面向交互式放射学报告起草的离散扩散语言模型

Source: https://huggingface.co/papers/2607.01436

摘要

扩散语言模型在医学视觉问答中匹配或超越自回归模型，同时提供更快的解码和双向文本编辑能力。

扩散语言模型（https://huggingface.co/papers?q=Diffusion%20language%20models）通过双向去噪令牌画布来生成文本，而不是从左到右依次输出令牌，现已具备与自回归（AR）生成竞争的能力。然而，医学基础模型（https://huggingface.co/papers?q=Medical%20foundation%20models）几乎完全采用自回归方式。我们调整了混合专家（https://huggingface.co/papers?q=mixture-of-experts）扩散语言模型 DiffusionGemma‑26B（https://huggingface.co/papers?q=DiffusionGemma-26B），并在相同的 LoRA（https://huggingface.co/papers?q=LoRA）方案下，将其与同等规模的 AR 兄弟模型 Gemma‑4‑26B（https://huggingface.co/papers?q=Gemma-4-26B）在医学视觉问答（https://huggingface.co/papers?q=medical%20visual%20question%20answering）数据集上进行基准测试，由对冗长程度具有鲁棒性的 LLM 评估器（https://huggingface.co/papers?q=LLM%20judge）进行评分。扩散模型在所有数据集上均匹配或超越了 AR 模型，且微调后的模型（3.8B 活跃参数）可与前沿视觉-语言模型竞争；其解码速度也快了 3.5–4.4 倍。除了这种性能相当之外，扩散模型还提供了 AR 所缺乏的起草能力（https://huggingface.co/papers?q=drafting%20capability）：任意顺序的填充（https://huggingface.co/papers?q=infill）。由于画布是双向去噪的，放射科医生（https://huggingface.co/papers?q=radiologist）可以修复报告片段，然后让模型填充它们之间的文本。这是扩散模型固有的操作，但自回归模型不擅长此操作，其表现较差。这非常适合真实的报告场景，这些报告通常在临床医生和机构之间显得简短或不一致。

查看 arXiv 页面 (https://arxiv.org/abs/2607.01436)查看 PDF (https://arxiv.org/pdf/2607.01436)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2607.01436)

通过 agent 获取此论文：

hf papers read 2607\.01436

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2607.01436 即可从本页链接。

引用此论文的数据集

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2607.01436 即可从本页链接。

引用此论文的 Space

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2607.01436 即可从本页链接。

包含此论文的合集

没有合集包含此论文

将此论文添加至合集 (https://huggingface.co/new-collection) 即可从本页链接。

面向交互式放射报告起草的离散扩散语言模型

论文页面 - 面向交互式放射学报告起草的离散扩散语言模型

摘要

引用此论文的模型

引用此论文的数据集

引用此论文的 Space

包含此论文的合集

相似文章

用于交互式放射学报告起草的离散扩散语言模型

google/diffusiongemma-26B-A4B-it

AnchorDiff: 拓扑感知的掩码扩散与基于置信度的重写用于放射学报告生成

扩散语言模型：实验分析

@vllm_project: 祝贺@GoogleDeepMind推出DiffusionGemma——一个基于Gemma4主干网络的260亿参数扩散语言模型，也是首个dLLM……

提交意见反馈