TwinTrack:医学影像分割的事后多标注者校准

Hugging Face Daily Papers 论文

摘要

# 论文页面 - TwinTrack:医学影像分割的事后多标注者校准 来源:[https://huggingface.co/papers/2604.15950](https://huggingface.co/papers/2604.15950) ## 摘要 TwinTrack 框架通过将集成概率事后校准为经验平均人类响应,解决胰腺癌分割中的模糊性,在多标注者基准上提升校准指标。

对比增强 CT 上的胰腺导管腺癌(PDAC)分割本质上是模糊的:专家之间的标注差异反映了真实的不确定性,而非标注噪声。标准深度学习方法假设存在唯一真值,在此类模糊场景下产生的概率输出往往校准不良且难以解释。我们提出 TwinTrack 框架,通过将集成分割概率事后校准为经验平均人类响应(MHR)——即专家标注者中将体素标记为肿瘤的比率——来填补这一空白。校准后的概率可直接解释为预期标注者中赋予肿瘤标签的比例,显式建模了标注者间分歧。所提出的事后校准过程简单,仅需小型多标注者校准集。在 MICCAI 2025 CURVAS-PDACVI 多标注者基准上评估时,它始终优于标准方法,显著提升校准指标。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 07:21

论文页面 - TwinTrack:医学图像分割的事后多标注者校准

来源:https://huggingface.co/papers/2604.15990

摘要

TwinTrack 框架通过将集成概率事后校准到经验平均人工响应,解决胰腺癌分割的模糊性,在多标注者基准上提升校准指标。

胰腺导管腺癌(PDAC)在增强 CT 上的分割天然模糊:专家间的标注差异(https://huggingface.co/papers?q=inter-rater%20disagreement)反映的是真实不确定性,而非标注噪声。传统深度学习方法假设存在唯一真值,输出的概率(https://huggingface.co/papers?q=probabilistic%20outputs)在这种模糊下往往校准不佳且难以解释。我们提出 TwinTrack 框架,通过事后校准(https://huggingface.co/papers?q=post-hoc%20calibration)集成分割(https://huggingface.co/papers?q=ensemble%20segmentation)概率,使其对齐经验平均人工响应(https://huggingface.co/papers?q=empirical%20mean%20human%20response)(MHR)——即标注某体素为肿瘤的标注者比例。校准后的概率可直接解释为“预期有多少标注者会标记该体素为肿瘤”,显式建模了标注者间差异(https://huggingface.co/papers?q=inter-rater%20disagreement)。所提出的事后校准(https://huggingface.co/papers?q=post-hoc%20calibration)过程简单,仅需少量多标注者校准集。在 MICCAI 2025 CURVAS-PDACVI 多标注者基准上,其一致地提升了校准指标(https://huggingface.co/papers?q=calibration%20metrics)。

查看 arXiv 页面(https://arxiv.org/abs/2604.15950)查看 PDF(https://arxiv.org/pdf/2604.15950)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.15950)

社区

引用该论文的模型 0

暂无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2604.15950,即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.15950,即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2604.15950,即可在此页面显示链接。

包含该论文的收藏 0

暂无收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection),即可在此页面显示链接。

相似文章

何时信任工具?工具集成数学推理的自适应工具信任校准

arXiv cs.CL

本文介绍了自适应工具信任校准(ATTC)框架,该框架通过使工具集成推理模型能够根据代码置信度得分自适应地决定是否相信或忽视工具结果,从而改进了这些模型。该方法解决了模型错误地忽视正确工具输出的"工具被忽视"问题,在多个模型和数据集上实现了4.1%-7.5%的性能提升。

使用 GPT-4o 推理能力改革癌症护理

OpenAI Blog

Color Health 开发了一款利用 GPT-4o 推理能力的 AI 医学助手,帮助肿瘤学家识别缺失的诊断信息并优化癌症护理工作流程。该工具使医生能够在约 5 分钟内发现 4 倍多的缺失检验和成像结果,相比之前需要数周,目前正在旧金山加州大学进行初步验证。

互惠协同训练(RCT):通过强化学习耦合基于梯度与不可微模型

arXiv cs.CL

# 互惠协同训练(RCT):通过强化学习耦合基于梯度与不可微模型 来源:[https://arxiv.org/html/2604.16378](https://arxiv.org/html/2604.16378) Yunshuo Tian¹, Akayou Kitessa¹, Tanuja Chitnis², 和 Yijun Zhao¹ 1 纽约市福特汉姆大学计算机与信息科学系 2 马萨诸塞州波士顿市Mass General Brigham医院神经科 ###### 摘要 大型语言模型 \(LLMs\) 与经典机器学习方法提供互补...