迷失在折叠中:交叉验证并非不确定性估计的深度集成
摘要
本文比较了交叉验证集成与深度集成在医学图像分割中的不确定性估计。深度集成在校准和故障检测方面优于交叉验证集成,而交叉验证集成能更好地近似评估者间变异性。
查看缓存全文
缓存时间: 2026/05/21 18:12
论文页面 - 迷失在折叠中:当交叉验证不是用于不确定性估计的深度集成
来源:https://huggingface.co/papers/2605.18329
摘要
使用固定数据和不同种子的深度集成在医学图像分割的校准和故障检测方面优于交叉验证集成,而交叉验证集成能更好地近似评分者间变异性。
集成不一致性被广泛用作医学图像分割中认知不确定性(https://huggingface.co/papers?q=epistemic%20uncertainty)的代理。在实践中,许多研究通过K折交叉验证(https://huggingface.co/papers?q=cross-validation)(CV)形成集成,却将其称为“深度集成”(https://huggingface.co/papers?q=deep%20ensembles)(DE)。由于CV成员在不同数据子集上训练,它们的不一致性混合了种子驱动的变异性和数据暴露效应,这会改变不确定性应如何解释。我们审计了最近的分割不确定性研究,发现术语与实现之间的不匹配很常见。随后,我们在三种模态的三个多评分者分割数据集上,在其它配置完全相同的情况下,比较了标准5折CV集成与5成员DE(固定训练集,不同随机种子)。我们评估了校准(https://huggingface.co/papers?q=calibration)、故障检测(https://huggingface.co/papers?q=failure%20detection)、模糊建模(https://huggingface.co/papers?q=ambiguity%20modeling)以及分布偏移(https://huggingface.co/papers?q=distribution%20shift)下的鲁棒性方面的不确定性。DE在匹配分割准确率的同时改善了校准(https://huggingface.co/papers?q=calibration)和故障检测(https://huggingface.co/papers?q=failure%20detection),而CV集成在所研究的数据集上有时与评分者间变异性相关性更强。因此,应选择与研究问题相匹配的集成构建方式:DE用于面向可靠性的用途(如选择性转诊/故障检测(https://huggingface.co/papers?q=failure%20detection)),CV集成作为模糊性的代理。我们提供了一个轻量级的nnU-Net(https://huggingface.co/papers?q=nnU-Net)修改,使得在默认流水线内进行DE训练成为可能。
查看arXiv页面(https://arxiv.org/abs/2605.18329)查看PDF(https://arxiv.org/pdf/2605.18329)GitHub0(https://github.com/Kirscher/LostInFolds)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18329)
引用此论文的模型0
无模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.18329以从此页面链接它。
引用此论文的数据集0
无数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.18329以从此页面链接它。
引用此论文的Space0
无Space链接此论文
在Space README.md中引用arxiv.org/abs/2605.18329以从此页面链接它。
包含此论文的收藏集0
无收藏集包含此论文
将这篇论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接它。
相似文章
CKD风险预测中的校准、不确定性沟通与部署就绪:一项框架评估研究
本研究评估了五种用于慢性肾脏病风险预测的机器学习分类器,发现近乎完美的内部性能在分布偏移下失效。强调在临床部署前需要校准稳定性和共形覆盖迁移。
一种更优的识别大语言模型过度自信的方法
MIT研究人员开发了一种新方法,通过衡量相似模型间的跨模型分歧来识别过度自信的LLM,而非仅依赖自洽性指标。该方法能更好地捕捉认知不确定性,并在高风险应用中更准确地识别出不可靠的预测。
TwinTrack:医学影像分割的事后多标注者校准
# 论文页面 - TwinTrack:医学影像分割的事后多标注者校准 来源:[https://huggingface.co/papers/2604.15950](https://huggingface.co/papers/2604.15950) ## 摘要 TwinTrack 框架通过将集成概率事后校准为经验平均人类响应,解决胰腺癌分割中的模糊性,在多标注者基准上提升校准指标。
ECG与血管造影表征的跨模态对比学习用于重度狭窄分类
本文介绍了StenCE,一个预训练框架,利用ECG与X射线血管造影表征之间的跨模态对比学习,从ECG中检测重度冠状动脉狭窄,实现了高性能,并能够在无症状患者中实现早期诊断。
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。