TwinTrack:医学影像分割的事后多标注者校准
摘要
# 论文页面 - TwinTrack:医学影像分割的事后多标注者校准 来源:[https://huggingface.co/papers/2604.15950](https://huggingface.co/papers/2604.15950) ## 摘要 TwinTrack 框架通过将集成概率事后校准为经验平均人类响应,解决胰腺癌分割中的模糊性,在多标注者基准上提升校准指标。
查看缓存全文
缓存时间: 2026/04/21 07:21
论文页面 - TwinTrack:医学图像分割的事后多标注者校准
来源:https://huggingface.co/papers/2604.15990
摘要
TwinTrack 框架通过将集成概率事后校准到经验平均人工响应,解决胰腺癌分割的模糊性,在多标注者基准上提升校准指标。
胰腺导管腺癌(PDAC)在增强 CT 上的分割天然模糊:专家间的标注差异(https://huggingface.co/papers?q=inter-rater%20disagreement)反映的是真实不确定性,而非标注噪声。传统深度学习方法假设存在唯一真值,输出的概率(https://huggingface.co/papers?q=probabilistic%20outputs)在这种模糊下往往校准不佳且难以解释。我们提出 TwinTrack 框架,通过事后校准(https://huggingface.co/papers?q=post-hoc%20calibration)集成分割(https://huggingface.co/papers?q=ensemble%20segmentation)概率,使其对齐经验平均人工响应(https://huggingface.co/papers?q=empirical%20mean%20human%20response)(MHR)——即标注某体素为肿瘤的标注者比例。校准后的概率可直接解释为“预期有多少标注者会标记该体素为肿瘤”,显式建模了标注者间差异(https://huggingface.co/papers?q=inter-rater%20disagreement)。所提出的事后校准(https://huggingface.co/papers?q=post-hoc%20calibration)过程简单,仅需少量多标注者校准集。在 MICCAI 2025 CURVAS-PDACVI 多标注者基准上,其一致地提升了校准指标(https://huggingface.co/papers?q=calibration%20metrics)。
查看 arXiv 页面(https://arxiv.org/abs/2604.15950)查看 PDF(https://arxiv.org/pdf/2604.15950)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.15950)
社区
引用该论文的模型 0
暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.15950,即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.15950,即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.15950,即可在此页面显示链接。
包含该论文的收藏 0
暂无收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection),即可在此页面显示链接。
相似文章
用于医学图像分割的质量引导半监督学习
本文提出了一种用于医学图像分割的质量引导半监督学习框架,该框架训练一个专用预测器,从图像-掩膜对中估计分割质量,从而提高伪标签的可靠性,并在多个数据集和架构上取得了最先进的结果。
探测、融合与可信度:面向多模态癌症分析的基础模型表征系统评估
本文系统评估了用于多模态癌症分析的基础模型表征,在真实世界队列上对单模态与多模态融合策略进行基准测试,并通过共形预测评估可信度。
超越一致性:为策展人筛选评分面板浮现的生物医学实体候选
本文介绍了BioConCal,一种监督评分器,它利用推理时的面板和候选特征对LLM面板浮现的生物医学实体候选进行排序,在策展人筛选方面显著优于原始一致性。
迷失在折叠中:交叉验证并非不确定性估计的深度集成
本文比较了交叉验证集成与深度集成在医学图像分割中的不确定性估计。深度集成在校准和故障检测方面优于交叉验证集成,而交叉验证集成能更好地近似评估者间变异性。
何时信任工具?工具集成数学推理的自适应工具信任校准
本文介绍了自适应工具信任校准(ATTC)框架,该框架通过使工具集成推理模型能够根据代码置信度得分自适应地决定是否相信或忽视工具结果,从而改进了这些模型。该方法解决了模型错误地忽视正确工具输出的"工具被忽视"问题,在多个模型和数据集上实现了4.1%-7.5%的性能提升。