面向交互式放射报告起草的离散扩散语言模型

Hugging Face Daily Papers 论文

摘要

本文适配了一个混合专家扩散语言模型DiffusionGemma-26B用于交互式放射报告起草,结果表明其在医学视觉问答中匹配或超越自回归模型,解码速度提高3.5-4.4倍,并具备双向填充能力。

扩散语言模型通过双向去噪令牌画布来生成文本,而非从左到右逐个生成令牌,现已与自回归(AR)生成相匹敌。然而,医学基础模型几乎全部仍是自回归的。我们适配了一个混合专家扩散语言模型DiffusionGemma-26B,并在医学视觉问答数据集上使用相同的LoRA方案,将其与同尺寸的AR兄弟模型Gemma-4-26B进行基准测试,由对冗长鲁棒的LLM裁判评分。扩散模型在所有数据集上匹配或超越AR,微调后的模型(3.8B活跃参数)与前沿视觉-语言模型相竞争;其解码速度也快3.5-4.4倍。除了这一性能持平外,扩散模型还提供了AR所缺乏的起草能力:任意顺序填充。由于画布是双向去噪的,放射科医生可以固定报告片段,让模型填充它们之间的文本,这是扩散模型固有的操作,而自回归模型则表现不佳。这适用于真实报告,这些报告在不同临床医生和机构之间往往简洁或不一致。
查看原文
查看缓存全文

缓存时间: 2026/07/03 03:52

论文页面 - 面向交互式放射学报告起草的离散扩散语言模型

Source: https://huggingface.co/papers/2607.01436

摘要

扩散语言模型在医学视觉问答中匹配或超越自回归模型,同时提供更快的解码和双向文本编辑能力。

扩散语言模型(https://huggingface.co/papers?q=Diffusion%20language%20models)通过双向去噪令牌画布来生成文本,而不是从左到右依次输出令牌,现已具备与自回归(AR)生成竞争的能力。然而,医学基础模型(https://huggingface.co/papers?q=Medical%20foundation%20models)几乎完全采用自回归方式。我们调整了混合专家(https://huggingface.co/papers?q=mixture-of-experts)扩散语言模型 DiffusionGemma‑26B(https://huggingface.co/papers?q=DiffusionGemma-26B),并在相同的 LoRA(https://huggingface.co/papers?q=LoRA)方案下,将其与同等规模的 AR 兄弟模型 Gemma‑4‑26B(https://huggingface.co/papers?q=Gemma-4-26B)在医学视觉问答(https://huggingface.co/papers?q=medical%20visual%20question%20answering)数据集上进行基准测试,由对冗长程度具有鲁棒性的 LLM 评估器(https://huggingface.co/papers?q=LLM%20judge)进行评分。扩散模型在所有数据集上均匹配或超越了 AR 模型,且微调后的模型(3.8B 活跃参数)可与前沿视觉-语言模型竞争;其解码速度也快了 3.5–4.4 倍。除了这种性能相当之外,扩散模型还提供了 AR 所缺乏的起草能力(https://huggingface.co/papers?q=drafting%20capability):任意顺序的填充(https://huggingface.co/papers?q=infill)。由于画布是双向去噪的,放射科医生(https://huggingface.co/papers?q=radiologist)可以修复报告片段,然后让模型填充它们之间的文本。这是扩散模型固有的操作,但自回归模型不擅长此操作,其表现较差。这非常适合真实的报告场景,这些报告通常在临床医生和机构之间显得简短或不一致。

查看 arXiv 页面 (https://arxiv.org/abs/2607.01436)查看 PDF (https://arxiv.org/pdf/2607.01436)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2607.01436)

通过 agent 获取此论文:

hf papers read 2607\.01436

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型

0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2607.01436 即可从本页链接。

引用此论文的数据集

0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2607.01436 即可从本页链接。

引用此论文的 Space

0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2607.01436 即可从本页链接。

包含此论文的合集

0

没有合集包含此论文

将此论文添加至合集 (https://huggingface.co/new-collection) 即可从本页链接。

相似文章

用于交互式放射学报告起草的离散扩散语言模型

arXiv cs.AI

本文改编了一种扩散语言模型用于交互式放射学报告起草,表明其在准确性上与自回归模型相当,同时提供独特的填充能力,使放射科医生能够修复报告片段并让模型填充它们之间的文本。

google/diffusiongemma-26B-A4B-it

Hugging Face Models Trending

Google DeepMind 发布了 DiffusionGemma,这是一个 26B 参数的 Mixture-of-Experts 模型,使用离散扩散实现更快的文本生成,支持多模态输入和 256K token 上下文。

扩散语言模型:实验分析

arXiv cs.AI

一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。