面向交互式放射报告起草的离散扩散语言模型
摘要
本文适配了一个混合专家扩散语言模型DiffusionGemma-26B用于交互式放射报告起草,结果表明其在医学视觉问答中匹配或超越自回归模型,解码速度提高3.5-4.4倍,并具备双向填充能力。
查看缓存全文
缓存时间: 2026/07/03 03:52
论文页面 - 面向交互式放射学报告起草的离散扩散语言模型
Source: https://huggingface.co/papers/2607.01436
摘要
扩散语言模型在医学视觉问答中匹配或超越自回归模型,同时提供更快的解码和双向文本编辑能力。
扩散语言模型(https://huggingface.co/papers?q=Diffusion%20language%20models)通过双向去噪令牌画布来生成文本,而不是从左到右依次输出令牌,现已具备与自回归(AR)生成竞争的能力。然而,医学基础模型(https://huggingface.co/papers?q=Medical%20foundation%20models)几乎完全采用自回归方式。我们调整了混合专家(https://huggingface.co/papers?q=mixture-of-experts)扩散语言模型 DiffusionGemma‑26B(https://huggingface.co/papers?q=DiffusionGemma-26B),并在相同的 LoRA(https://huggingface.co/papers?q=LoRA)方案下,将其与同等规模的 AR 兄弟模型 Gemma‑4‑26B(https://huggingface.co/papers?q=Gemma-4-26B)在医学视觉问答(https://huggingface.co/papers?q=medical%20visual%20question%20answering)数据集上进行基准测试,由对冗长程度具有鲁棒性的 LLM 评估器(https://huggingface.co/papers?q=LLM%20judge)进行评分。扩散模型在所有数据集上均匹配或超越了 AR 模型,且微调后的模型(3.8B 活跃参数)可与前沿视觉-语言模型竞争;其解码速度也快了 3.5–4.4 倍。除了这种性能相当之外,扩散模型还提供了 AR 所缺乏的起草能力(https://huggingface.co/papers?q=drafting%20capability):任意顺序的填充(https://huggingface.co/papers?q=infill)。由于画布是双向去噪的,放射科医生(https://huggingface.co/papers?q=radiologist)可以修复报告片段,然后让模型填充它们之间的文本。这是扩散模型固有的操作,但自回归模型不擅长此操作,其表现较差。这非常适合真实的报告场景,这些报告通常在临床医生和机构之间显得简短或不一致。
查看 arXiv 页面 (https://arxiv.org/abs/2607.01436)查看 PDF (https://arxiv.org/pdf/2607.01436)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2607.01436)
通过 agent 获取此论文:
hf papers read 2607\.01436
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型
0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2607.01436 即可从本页链接。
引用此论文的数据集
0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2607.01436 即可从本页链接。
引用此论文的 Space
0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2607.01436 即可从本页链接。
包含此论文的合集
0
没有合集包含此论文
将此论文添加至合集 (https://huggingface.co/new-collection) 即可从本页链接。
相似文章
用于交互式放射学报告起草的离散扩散语言模型
本文改编了一种扩散语言模型用于交互式放射学报告起草,表明其在准确性上与自回归模型相当,同时提供独特的填充能力,使放射科医生能够修复报告片段并让模型填充它们之间的文本。
google/diffusiongemma-26B-A4B-it
Google DeepMind 发布了 DiffusionGemma,这是一个 26B 参数的 Mixture-of-Experts 模型,使用离散扩散实现更快的文本生成,支持多模态输入和 256K token 上下文。
AnchorDiff: 拓扑感知的掩码扩散与基于置信度的重写用于放射学报告生成
AnchorDiff提出了一种拓扑感知的掩码扩散框架用于放射学报告生成,整合了基于RadGraph的临床锚点和基于置信度的重写,在MIMIC-CXR和MIMIC-RG4基准测试上取得了最先进的结果。
扩散语言模型:实验分析
一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。
@vllm_project: 祝贺@GoogleDeepMind推出DiffusionGemma——一个基于Gemma4主干网络的260亿参数扩散语言模型,也是首个dLLM……
vLLM宣布原生支持Google DeepMind的DiffusionGemma,这是一个260亿参数的离散扩散语言模型,能够并行生成256个token的块,在单个H200上实现1200+ tok/s的低延迟推理。