迷失在折叠中:交叉验证并非不确定性估计的深度集成

Hugging Face Daily Papers 论文

摘要

本文比较了交叉验证集成与深度集成在医学图像分割中的不确定性估计。深度集成在校准和故障检测方面优于交叉验证集成,而交叉验证集成能更好地近似评估者间变异性。

集成不一致性被广泛用作医学图像分割中认知不确定性的代理。在实践中,许多研究通过K折交叉验证(CV)形成集成,却将其称为“深度集成”(DE)。由于CV成员在不同数据子集上训练,它们的不一致性混合了种子驱动的变异性和数据暴露效应,这可能会改变不确定性应被解释的方式。我们审计了最近的分割不确定性研究,发现术语与实现之间的不匹配很常见。随后,我们在三个涵盖三种模态的多评估者分割数据集上,在其余配置完全相同的情况下,比较了标准的5折CV集成与5成员DE(固定训练集,不同随机种子)。我们评估了校准、故障检测、模糊性建模以及分布偏移下的鲁棒性方面的不确定性。DE在匹配分割精度的同时改善了校准和故障检测,而CV集成有时与研究数据集上的评估者间变异性相关性更强。因此,集成构建应根据研究问题来选择:DE用于可靠性导向的使用(例如选择性转诊/故障检测),CV集成作为模糊性的代理。我们提供了一个轻量级的nnU-Net修改,使得在默认管道内能够进行DE训练。
查看原文
查看缓存全文

缓存时间: 2026/05/21 18:12

论文页面 - 迷失在折叠中:当交叉验证不是用于不确定性估计的深度集成

来源:https://huggingface.co/papers/2605.18329

摘要

使用固定数据和不同种子的深度集成在医学图像分割的校准和故障检测方面优于交叉验证集成,而交叉验证集成能更好地近似评分者间变异性。

集成不一致性被广泛用作医学图像分割中认知不确定性(https://huggingface.co/papers?q=epistemic%20uncertainty)的代理。在实践中,许多研究通过K折交叉验证(https://huggingface.co/papers?q=cross-validation)(CV)形成集成,却将其称为“深度集成”(https://huggingface.co/papers?q=deep%20ensembles)(DE)。由于CV成员在不同数据子集上训练,它们的不一致性混合了种子驱动的变异性和数据暴露效应,这会改变不确定性应如何解释。我们审计了最近的分割不确定性研究,发现术语与实现之间的不匹配很常见。随后,我们在三种模态的三个多评分者分割数据集上,在其它配置完全相同的情况下,比较了标准5折CV集成与5成员DE(固定训练集,不同随机种子)。我们评估了校准(https://huggingface.co/papers?q=calibration)、故障检测(https://huggingface.co/papers?q=failure%20detection)、模糊建模(https://huggingface.co/papers?q=ambiguity%20modeling)以及分布偏移(https://huggingface.co/papers?q=distribution%20shift)下的鲁棒性方面的不确定性。DE在匹配分割准确率的同时改善了校准(https://huggingface.co/papers?q=calibration)和故障检测(https://huggingface.co/papers?q=failure%20detection),而CV集成在所研究的数据集上有时与评分者间变异性相关性更强。因此,应选择与研究问题相匹配的集成构建方式:DE用于面向可靠性的用途(如选择性转诊/故障检测(https://huggingface.co/papers?q=failure%20detection)),CV集成作为模糊性的代理。我们提供了一个轻量级的nnU-Net(https://huggingface.co/papers?q=nnU-Net)修改,使得在默认流水线内进行DE训练成为可能。

查看arXiv页面(https://arxiv.org/abs/2605.18329)查看PDF(https://arxiv.org/pdf/2605.18329)GitHub0(https://github.com/Kirscher/LostInFolds)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18329)

引用此论文的模型0

无模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.18329以从此页面链接它。

引用此论文的数据集0

无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.18329以从此页面链接它。

引用此论文的Space0

无Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.18329以从此页面链接它。

包含此论文的收藏集0

无收藏集包含此论文

将这篇论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接它。

相似文章

一种更优的识别大语言模型过度自信的方法

MIT News — Artificial Intelligence

MIT研究人员开发了一种新方法,通过衡量相似模型间的跨模型分歧来识别过度自信的LLM,而非仅依赖自洽性指标。该方法能更好地捕捉认知不确定性,并在高风险应用中更准确地识别出不可靠的预测。

TwinTrack:医学影像分割的事后多标注者校准

Hugging Face Daily Papers

# 论文页面 - TwinTrack:医学影像分割的事后多标注者校准 来源:[https://huggingface.co/papers/2604.15950](https://huggingface.co/papers/2604.15950) ## 摘要 TwinTrack 框架通过将集成概率事后校准为经验平均人类响应,解决胰腺癌分割中的模糊性,在多标注者基准上提升校准指标。