RADS：基于强化学习的样本选择提升低资源、不平衡临床场景下的迁移学习效果

arXiv cs.CL 2026/04/23 04:00 论文

摘要

RADS 利用强化学习挑选最具信息量的样本进行少样本微调，在低资源且极度不平衡的临床数据集上显著提高迁移学习准确率。

arXiv:2604.20256v1 公告类型：新增摘要：迁移学习常用的策略之一是少样本微调，但其效果高度依赖于所选训练样本的质量。主动学习方法（如不确定性采样和多样性采样）能够挑选有用样本，然而在极低资源且类别极度不平衡的条件下，它们往往偏好异常值而非真正具有信息量的样本，导致性能下降。本文提出 RADS（Reinforcement Adaptive Domain Sampling），一种基于强化学习（RL）的鲁棒样本选择策略，用于识别最具信息量的样本。在多个真实临床数据集上的实验评估表明，与传统方法相比，该样本选择策略在极端类别不平衡下仍能提升模型迁移能力并保持稳健性能。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/23 10:03

# RADS：基于强化学习的样本选择提升低资源与类别不平衡临床场景下的迁移学习效果  
来源：https://arxiv.org/html/2604.20256  
魏涵¹、David Martinez¹、Anna Khanina³⁴⁵、Lawrence Cavedon¹、Karin Verspoor¹²³  
¹RMIT 大学计算技术学院 ²墨尔本大学计算与信息系统学院 ³墨尔本国家癌症感染中心 ⁴Peter MacCallum 癌症中心传染病科 ⁵墨尔本大学 Sir Peter MacCallum 肿瘤学系  

###### 摘要  
迁移学习常用的“小样本微调”高度依赖所选训练样本的质量。主动学习中的“不确定性采样”与“多样性采样”虽能挑选有用样本，但在极低资源且类别极度不平衡时，往往选中离群点而非真正信息丰富的样本，导致性能下降。本文提出 RADS（Reinforcement Adaptive Domain Sampling），一种基于强化学习（RL）的鲁棒样本选择策略，可在目标域中识别最具信息量的样本。在多个真实临床数据集的实验表明，相比传统方法，RADS 在极端类别不平衡下仍能提升模型迁移性与鲁棒性。代码已开源：GitHub111https://github.com/Wei-0808/RADS。

## 1 引言  
在临床文本等标注成本高昂、罕见病种稀少的领域，如何最大化利用有限数据是自然语言处理（NLP）的核心议题。临床语料包含大量专业符号、缩写与行话，高质量标注数据集尤为稀缺。  
迁移学习（TL）通过复用源任务知识提升相关目标任务性能，已成为低资源场景的有效途径。然而，当目标任务仅有极少标注样本时，直接微调往往输出不可靠，这在“可靠性至上”的医疗场景尤为致命。  
类别不平衡进一步加剧难度：临床数据中正样本常因疾病低发而稀缺，或因采集方案差异而过度集中。极端的类别分布差异阻碍模型跨数据集迁移。  
临床文档本身亦高度异构：CT、PET 影像报告侧重影像所见，而细胞/组织病理报告聚焦细胞级观察。已有研究表明，在同一疾病检测任务上，源报告类型训练的模型跨类型应用时性能骤降。  
为此，我们提出 RADS（Reinforcement Adaptive Domain Sampling）。遵循主动学习范式，RADS 用 RL 代理在目标域中挑选最有助于小样本微调的样本（见图1）。经医学专家标注后，与源数据联合微调，使模型在保持源域性能的同时提升目标域泛化能力。在多组真实临床数据上的实验验证，RADS 在低资源与类别不平衡条件下均取得更优的迁移效果。  

本文贡献：  
- 针对低资源、类别不平衡且文档类型异构的疾病检测场景提出解决方案；  
- 提出 RADS，一种面向数据稀缺与类别失衡的 RL 样本选择策略；  
- 多临床数据集实验表明，RADS 在相似但不同源之间实现更有效迁移。

## 2 相关工作  
在高质量标注数据充足时，基于词典或传统 ML 的方法已在疾病检测中取得不错效果；近年 BioBERT、ClinicalBERT 等医疗领域 LLM 进一步提升了临床文本理解能力。  
低资源场景下，小样本微调成为主流，但样本选择至关重要。传统主动学习（不确定性/多样性采样）仅优化单一指标，在域偏移下易选离群点。RL 被探索用于学习更灵活的采样策略，提升鲁棒性。  
类别不平衡方面，数据层面（过采样/欠采样）与算法层面（代价敏感、Focal Loss）均被广泛研究，但临床 NLP 中的极低资源与极端不平衡仍是开放难题。

## 3 方法  

### 3.1 问题设定与概览  
我们研究“完全标注的源数据集 Ds 与无标注目标数据集 Ut”之间的低资源、类别不平衡迁移。两域共享部分临床知识，但存在分布偏移与标签分布差异。  
将其形式化为“预算受限的主动学习”：给定预算 B≪Nt，需从 Ut 中选高价值子集 Q，经标注后与 Ds 合并微调，实现有效跨域适配。  
RADS 框架（见图2）分三阶段：  
1. 在 Ds 上训练主动学习器，用 MC Dropout 为 Ut 计算信息量信号；  
2. 提出“先验感知效用”，融合 BALD 互信息与伪标签类别加权，显式控制极端不平衡下的采样质量；  
3. 训练 RL 采样器，最大化先验感知效用并抑制冗余选择。伪代码见附录 A。

### 3.2 主动学习器  
我们在 Ds 上微调轻量分类器 fφ。对任意无标注目标报告 x∈Ut，通过 MC Dropout 做 K 次随机前向，得到 K 个预测分布 pk(y|x)。  
计算 MC 预测均值 p̄(y|x) 与平均 log 概率向量 l̄(x)，后者用于后续冗余估计。  
基于 p̄，定义伪标签 ŷ(x) 并估计目标域类别先验 π̂+、π̂−，以校正采样偏差。

### 3.3 BALD 信号  
采用 BALD（Bayesian Active Learning by Disagreement）量化样本信息量：  
MI(x) = H(p̄) – 1/K Σk H(pk)。  
MI(x) 高表示整体预测不确定且各随机模型“自信但意见不一”。将 MI(x) 归一化至 [0,1] 记为 MĨ(x)，作为后续 RL 状态的关键维度。

相似文章

RAD-2：在生成器-判别器框架中扩展强化学习

Hugging Face Daily Papers

RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架，将基于扩散的轨迹生成与强化学习优化的重排序相结合，与基于扩散的规划器相比，碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术，以实现高效的大规模训练。

互惠协同训练（RCT）：通过强化学习耦合基于梯度与不可微模型

arXiv cs.CL

# 互惠协同训练（RCT）：通过强化学习耦合基于梯度与不可微模型来源：[https://arxiv.org/html/2604.16378](https://arxiv.org/html/2604.16378) Yunshuo Tian¹, Akayou Kitessa¹, Tanuja Chitnis², 和 Yijun Zhao¹ 1 纽约市福特汉姆大学计算机与信息科学系 2 马萨诸塞州波士顿市Mass General Brigham医院神经科 ###### 摘要大型语言模型 \(LLMs\) 与经典机器学习方法提供互补...

RADS：基于强化学习的样本选择提升低资源、不平衡临床场景下的迁移学习效果

相似文章

RAD-2：在生成器-判别器框架中扩展强化学习

互惠协同训练（RCT）：通过强化学习耦合基于梯度与不可微模型

ResRL：通过负样本投影残差强化学习提升大语言模型的推理能力

RadAgent：用于胸部CT逐步解读的工具型AI代理

基于预测奖励的强化学习

提交意见反馈