解耦类别不平衡CT身体成分分割中的采样与训练预算
摘要
本文研究了从少样本学习中采用情节采样(episodic sampling)用于医学图像分割中的类别平衡批次构建,表明在低数据条件下由于减少过拟合和延长训练迭代而提高了性能,代码可在GitHub上获取。
查看缓存全文
缓存时间: 2026/05/22 14:20
论文页面 - 在类别不平衡CT身体成分分割中分离采样与训练预算
来源:https://huggingface.co/papers/2605.20405
摘要
来自少样本学习的情景采样改善了医学图像分割中类别平衡的批次构建,在低数据条件下由于减少了过拟合并延长了训练迭代次数,其表现优于随机采样和加权采样。
类别不平衡(https://huggingface.co/papers?q=Class%20imbalance)是医学图像分割(https://huggingface.co/papers?q=medical%20image%20segmentation)中的一个基本挑战,频繁出现的类别通常主导训练过程,牺牲了稀有类别。基于损失的方法通过重新加权批次内每个像素的损失来缓解不平衡,而采样策略则控制哪些图像进入批次。然而,两者都没有显式控制批次内出现的类别,导致稀有类别的暴露仅得到部分重新平衡。在这项工作中,我们借鉴来自少样本学习(https://huggingface.co/papers?q=few-shot%20learning)的情景采样(https://huggingface.co/papers?q=episodic%20sampling),在全监督设置下促进类别平衡的批次构建。我们将情景采样从其传统的度量学习背景中解耦,并在CT身体成分分割(https://huggingface.co/papers?q=body%20composition%20segmentation)中对其进行评估。我们利用来自公开SAROS数据集(https://huggingface.co/papers?q=SAROS%20dataset)的210次扫描,对九种肌肉和脂肪组织,将情景采样与随机采样和加权采样进行比较。训练在全数据和低数据模式下进行,并在匹配的训练迭代预算(https://huggingface.co/papers?q=training%20iteration%20budget)下额外进行比较。在全数据训练(https://huggingface.co/papers?q=full-data%20training)下,三种策略表现相当(情景采样的平均Dice为0.882,随机和加权采样为0.878)。在低数据训练(https://huggingface.co/papers?q=low-data%20training)下,情景采样优于随机和加权采样(0.787 vs. 0.758和0.762),这得益于12倍的训练迭代次数差异。在匹配的训练预算下,随机和加权采样更早地出现过拟合,而情景采样在平台期之前大约多持续了三倍的迭代次数。我们的研究结果将训练迭代预算(https://huggingface.co/papers?q=training%20iteration%20budget)识别为采样策略中一个未被充分认识的混杂因素,从而激发针对小数据集的迭代感知评估协议。此外,情景采样的剩余优势与类别平衡批次的隐式正则化(https://huggingface.co/papers?q=implicit%20regularization)效应一致,为类别不平衡的医学图像分割(https://huggingface.co/papers?q=medical%20image%20segmentation)提供了一种低成本、模型无关的策略。代码可在 https://github.com/iasonsky/episodic-sampling 获取。
查看arXiv页面(https://arxiv.org/abs/2605.20405)查看PDF(https://arxiv.org/pdf/2605.20405)GitHub0(https://github.com/iasonsky/episodic-sampling)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.20405)
在你的代理中获取这篇论文:
hf papers read 2605.20405
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有模型链接此论文
在模型README.md中引用 arxiv.org/abs/2605.20405 以将其链接至此页面。
引用本论文的数据集0
没有数据集链接此论文
在数据集README.md中引用 arxiv.org/abs/2605.20405 以将其链接至此页面。
引用本论文的Space0
没有Space链接此论文
在Space README.md中引用 arxiv.org/abs/2605.20405 以将其链接至此页面。
包含本论文的收藏0
没有收藏包含此论文
将这篇论文添加到收藏(https://huggingface.co/new-collection)以将其链接至此页面。
相似文章
用于医学图像分割的质量引导半监督学习
本文提出了一种用于医学图像分割的质量引导半监督学习框架,该框架训练一个专用预测器,从图像-掩膜对中估计分割质量,从而提高伪标签的可靠性,并在多个数据集和架构上取得了最先进的结果。
RADS:基于强化学习的样本选择提升低资源、不平衡临床场景下的迁移学习效果
RADS 利用强化学习挑选最具信息量的样本进行少样本微调,在低资源且极度不平衡的临床数据集上显著提高迁移学习准确率。
更少数据,更快训练:重复小数据集通过采样偏差加速学习
本文研究了“小规模与大规模差距”,即与使用更大的数据集相比,在更少的样本上进行更多次重复训练可以带来更快的学习和计算节省,并将加速归因于采样偏差所实现的逐层增长。研究结果表明,带有重复的小数据集可以被主动利用作为有利的归纳偏置,尤其是在推理任务中。
少样本学习中样本选择策略的自动组合
本文提出 ACSESS 方法,用于自动组合多种样本选择策略来改进少样本学习的性能,涵盖上下文学习和梯度优化两种方法。该工作在包含文本和图像两种模态的 14 个数据集上证明,策略组合的效果始终优于单个选择方法。
在有限标签下,哪种解剖结构更重要?一种数据高效的解剖感知心脏病理预测基准
本文提出了一个在ACDC MRI数据集上进行心脏病理预测的数据高效解剖感知基准,表明在有限标签下,解剖表示比模型复杂性更重要。