迷失在折叠中：交叉验证并非不确定性估计的深度集成

Hugging Face Daily Papers 2026/05/18 00:00 论文

摘要

本文比较了交叉验证集成与深度集成在医学图像分割中的不确定性估计。深度集成在校准和故障检测方面优于交叉验证集成，而交叉验证集成能更好地近似评估者间变异性。

集成不一致性被广泛用作医学图像分割中认知不确定性的代理。在实践中，许多研究通过K折交叉验证（CV）形成集成，却将其称为“深度集成”（DE）。由于CV成员在不同数据子集上训练，它们的不一致性混合了种子驱动的变异性和数据暴露效应，这可能会改变不确定性应被解释的方式。我们审计了最近的分割不确定性研究，发现术语与实现之间的不匹配很常见。随后，我们在三个涵盖三种模态的多评估者分割数据集上，在其余配置完全相同的情况下，比较了标准的5折CV集成与5成员DE（固定训练集，不同随机种子）。我们评估了校准、故障检测、模糊性建模以及分布偏移下的鲁棒性方面的不确定性。DE在匹配分割精度的同时改善了校准和故障检测，而CV集成有时与研究数据集上的评估者间变异性相关性更强。因此，集成构建应根据研究问题来选择：DE用于可靠性导向的使用（例如选择性转诊/故障检测），CV集成作为模糊性的代理。我们提供了一个轻量级的nnU-Net修改，使得在默认管道内能够进行DE训练。

查看原文

查看缓存全文

缓存时间: 2026/05/21 18:12

论文页面 - 迷失在折叠中：当交叉验证不是用于不确定性估计的深度集成

来源：https://huggingface.co/papers/2605.18329

摘要

使用固定数据和不同种子的深度集成在医学图像分割的校准和故障检测方面优于交叉验证集成，而交叉验证集成能更好地近似评分者间变异性。

集成不一致性被广泛用作医学图像分割中认知不确定性（https://huggingface.co/papers?q=epistemic%20uncertainty）的代理。在实践中，许多研究通过K折交叉验证（https://huggingface.co/papers?q=cross-validation）（CV）形成集成，却将其称为“深度集成”（https://huggingface.co/papers?q=deep%20ensembles）（DE）。由于CV成员在不同数据子集上训练，它们的不一致性混合了种子驱动的变异性和数据暴露效应，这会改变不确定性应如何解释。我们审计了最近的分割不确定性研究，发现术语与实现之间的不匹配很常见。随后，我们在三种模态的三个多评分者分割数据集上，在其它配置完全相同的情况下，比较了标准5折CV集成与5成员DE（固定训练集，不同随机种子）。我们评估了校准（https://huggingface.co/papers?q=calibration）、故障检测（https://huggingface.co/papers?q=failure%20detection）、模糊建模（https://huggingface.co/papers?q=ambiguity%20modeling）以及分布偏移（https://huggingface.co/papers?q=distribution%20shift）下的鲁棒性方面的不确定性。DE在匹配分割准确率的同时改善了校准（https://huggingface.co/papers?q=calibration）和故障检测（https://huggingface.co/papers?q=failure%20detection），而CV集成在所研究的数据集上有时与评分者间变异性相关性更强。因此，应选择与研究问题相匹配的集成构建方式：DE用于面向可靠性的用途（如选择性转诊/故障检测（https://huggingface.co/papers?q=failure%20detection）），CV集成作为模糊性的代理。我们提供了一个轻量级的nnU-Net（https://huggingface.co/papers?q=nnU-Net）修改，使得在默认流水线内进行DE训练成为可能。

查看arXiv页面（https://arxiv.org/abs/2605.18329）查看PDF（https://arxiv.org/pdf/2605.18329）GitHub0（https://github.com/Kirscher/LostInFolds）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.18329）

引用此论文的模型0

无模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.18329以从此页面链接它。

引用此论文的数据集0

无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.18329以从此页面链接它。

引用此论文的Space0

无Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.18329以从此页面链接它。

包含此论文的收藏集0

无收藏集包含此论文

将这篇论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接它。

迷失在折叠中：交叉验证并非不确定性估计的深度集成

论文页面 - 迷失在折叠中：当交叉验证不是用于不确定性估计的深度集成

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

现代深度学习的不确定性估计与泛化界限

AI驱动碰撞仿真替代模型的不确定性量化：基于开源保险杠横梁基准的蒙特卡洛Dropout与深度集成对比研究

贝叶斯不确定性估计提升医疗AI代理的临床决策能力

CKD风险预测中的校准、不确定性沟通与部署就绪：一项框架评估研究

基于解析预测推断的高效贝叶斯深度集成

提交意见反馈