互惠协同训练(RCT):通过强化学习耦合基于梯度与不可微模型
摘要
# 互惠协同训练(RCT):通过强化学习耦合基于梯度与不可微模型 来源:[https://arxiv.org/html/2604.16378](https://arxiv.org/html/2604.16378) Yunshuo Tian¹, Akayou Kitessa¹, Tanuja Chitnis², 和 Yijun Zhao¹ 1 纽约市福特汉姆大学计算机与信息科学系 2 马萨诸塞州波士顿市Mass General Brigham医院神经科 ###### 摘要 大型语言模型 \(LLMs\) 与经典机器学习方法提供互补...
查看缓存全文
缓存时间: 2026/04/21 07:03
# 互惠协同训练 (RCT):通过强化学习耦合基于梯度与不可微模型 Source: https://arxiv.org/html/2604.16378 Yunshuo Tian1, Akayou Kitessa1, Tanuja Chitnis2, and Yijun Zhao1 1 Department of Computer and Information Science, Fordham University, New York, NY 2 Department of Neurology, Mass General Brigham, Boston, MA ###### Abstract 大语言模型 \(LLMs\) 与传统机器学习方法在预测建模中各具优势,但其根本不同的表示方式与训练范式阻碍了有效融合:\(LLMs\) 依赖于对文本数据的基于梯度的优化,而随机森林 \(RF\) 等模型则采用不可微的特征划分方法。本文提出一种互惠协同训练框架,通过强化学习将 \(LLM\) 与 \(RF\) 分类器耦合,构建一个迭代反馈循环,使每个模型都能利用来自另一方的信号进行改进。表格数据被重构为标准化的文本表示供 \(LLM\) 使用,其嵌入向量 \(embeddings\) 增强了 \(RF\) 的特征空间;同时,校准后的 \(RF\) 概率估计值提供反馈信号,指导 \(LLM\) 的强化学习更新。在三个医疗数据集上的实验表明,两种模型的预测性能均持续提升,其中 \(LLM\) 的提升尤为显著。消融实验显示,迭代细化、混合奖励设计及维度控制共同促成了这些性能增益。该框架提供了一种通用机制,使原本不兼容的模型家族能够通过双向适配互相利用各自的优势。 互惠协同训练 \(RCT\):通过强化学习耦合基于梯度与不可微模型 ## 1 Introduction 大语言模型 \(LLMs\) 已成为强大的预训练模型,能够从大规模语料中学习丰富的表示 Vaswani et al\. (2017 https://arxiv.org/html/2604.16378#bib.bib27); Brown et al\. (2020 https://arxiv.org/html/2604.16378#bib.bib7); Touvron et al\. (2023 https://arxiv.org/html/2604.16378#bib.bib26)\。尽管此类预训练模型在许多任务上展现出强大的泛化能力,但在特定领域的应用中通常需要针对领域数据进行适配或进一步预训练 Gururangan et al\. (2020 https://arxiv.org/html/2604.16378#bib.bib15)\。近期研究探索通过将变量重构为文本描述,将 \(LLMs\) 应用于基于特征的预测问题,从而使模型能够利用预训练知识 Dinh et al\. (2022 https://arxiv.org/html/2604.16378#bib.bib11)\。然而,实证研究表明,在许多数据集上(尤其是训练样本有限时),传统机器学习方法的性能往往与神经网络方法相当甚至更优 Grinsztajn et al\. (2022 https://arxiv.org/html/2604.16378#bib.bib14)\。 在传统方法中,随机森林 \(RF\) 等基于树的集成模型因其在多样本集上的稳健性和可靠性能,常作为强有力的基线 Breiman (2001 https://arxiv.org/html/2604.16378#bib.bib6); Grinsztajn et al\. (2022 https://arxiv.org/html/2604.16378#bib.bib14)\。这些模型通过决策树集成对特征空间进行划分,在数据异质性或样本量适中时表现良好。相比之下,\(LLMs\) 学习的是上下文表示,能够在输入转化为自然语言形式后捕捉复杂关系。尽管两者优势互补,现有方法通常独立使用 \(LLMs\) 和传统模型,导致任何一方都无法受益于另一方的优势。 受此启发,本研究提出一种互惠协同训练框架 \(RCT\),通过交替优化将 \(LLM\) 与随机森林分类器相连结。由于树集成本质上不可微,而 \(LLMs\) 依赖基于梯度的学习,直接端到端训练并不可行。因此,强化学习作为通信桥梁发挥作用,使 \(RF\) 的预测能够引导 \(LLM\) 表示的更新,同时生成的嵌入被融入 \(RF\) 的特征空间中。与固定单一组件的传统流水线不同,本文框架允许两个模型在训练过程中相互适应,从而实现表示和预测的迭代细化。 该框架在多发性硬化症 \(MS\) 首次临床就诊后三年复发的预测任务上进行评估。\(MS\) 是一种具有异质性进展特征的慢性神经系统疾病 Madill et al\. (2024 https://arxiv.org/html/2604.16378#bib.bib21)\。早期复发预测对于支持及时干预和治疗计划具有重要的临床价值。另外两个公开医疗数据集用于评估该方法超越 \(MS\) 领域的泛化能力。在所有数据集上,\(RCT\) 均能持续改善预测性能,其中 \(LLM\) 组件的提升最为显著。这些结果表明,强化学习可以弥合基于梯度的语言模型与不可微的随机森林模型之间的鸿沟,使异构学习者受益于双向反馈。框架实现已发布至匿名 GitHub 仓库 Anonymous GitHub Repository (2026 https://arxiv.org/html/2604.16378#bib.bib4) 以促进可重复性研究。 ## 2 Related Work 与本相关的先前工作大致可分为两类:\(LLM\)-驱动的混合学习方法论进展,以及语言模型在电子健康记录 \(EHR\) 预测中的临床应用。 ### 2.1 LLMs and Hybrid Learning 近年研究探讨了将 \(LLMs\) 适配到基于特征的预测任务中。除了文本生成,一些方法将特定任务的分类头附加到 Transformer 嵌入层上,并采用 LoRA Hu et al\. (2021 https://arxiv.org/html/2604.16378#bib.bib17)\ 提出的参数高效微调技术。其他工作则将特征向量重构为提示词,以利用预训练语言模型的先验知识 Dinh et al\. (2022 https://arxiv.org/html/2604.16378#bib.bib11)\。更专门的框架倾向于将 Transformer 的隐层表示与下游编码器对齐,而非依赖文本输出。例如,Latte Shi et al\. (2025 https://arxiv.org/html/2604.16378#bib.bib24)\ 提取隐状态表示并在结构化数据集上迁移隐式知识以进行少样本学习,从而减轻了基于文本流水线所带来的幻觉和延迟问题。相关研究还探索了专为该场景设计的 Transformer 架构,包括 TabPFN Hollmann et al\. (2023 https://arxiv.org/html/2604.16378#bib.bib16)\ 及其他在近期基准测试中评估的深度模型 Gorishniy et al\. (2021 https://arxiv.org/html/2604.16378#bib.bib13)\。这些方法主要依赖对 \(LLM\) 的直接监督适配。 将基础模型与传统预测器结合的尝试相对有限。堆叠泛化 Wolpert (1992 https://arxiv.org/html/2604.16378#bib.bib28)\ 等混合建模策略虽结合了异构学习者,但通常独立训练各组件,缺乏迭代的相互适配。 强化学习在促进外部反馈信号融入语言模型 Ouyang et al\. (2022 https://arxiv.org/html/2604.16378#bib.bib22)\ 以及通过近端策略优化 \(PPO\) Schulman et al\. (2017 https://arxiv.org/html/2604.16378#bib.bib23)\ 等方法稳定策略更新方面发挥了核心作用。然而,既往工作一般仅优化单一可微模型。利用强化学习通过交替更新来耦合不可微的随机森林与 Transformer 的研究尚未得到充分关注。 ### 2.2 LLMs and Classical Models in Clinical Prediction 在临床领域,大型语言模型已越来越多地应用于电子健康记录 \(EHR\) 数据,以进行风险预测和疾病监测。针对临床笔记训练的临床适配 Transformer 模型(如 ClinicalBERT)提供了上下文表示,改善了下游临床预测任务的性能 Alsentzer et al\. (2019 https://arxiv.org/html/2604.16378#bib.bib2)\。在 \(EHR\) 数据上微调 ClinicalBERT 已在住院再入院预测和其他临床结果建模等任务中展示了优于传统基线的效果 Huang et al\. (2019 https://arxiv.org/html/2604.16378#bib.bib18)\。在多发性硬化症 \(MS\) 研究中,基于 Transformer 的方法已被用于预测扩展残疾状态量表 \(EDSS\) 结局和复发风险 Zhan (2023 https://arxiv.org/html/2604.16378#bib.bib29)\。其他研究将自然语言处理与传统模型相结合,从非结构化临床文档中提取疾病活动信号 Chang et al\. (2022 https://arxiv.org/html/2604.16378#bib.bib9)\。 随机森林 Breiman (2001 https://arxiv.org/html/2604.16378#bib.bib6)\ 和 XGBoost Chen and Guestrin (2016 https://arxiv.org/html/2604.16378#bib.bib10)\ 等传统集成模型常被用作临床建模研究的参考基线。结合神经网络与集成模型的先前工作通常通过堆叠或混合集成独立训练各组件 Kablan et al\. (2023 https://arxiv.org/html/2604.16378#bib.bib20); Alzubaidi et al\. (2023 https://arxiv.org/html/2604.16378#bib.bib3)\,或将神经网络学到的表示转移至传统分类器 Akbar et al\. (2022 https://arxiv.org/html/2604.16378#bib.bib1)\。这些方法要么依赖独立训练,要么仅进行单向表示转移;而本文探讨的框架允许两类模型在训练过程中通过迭代反馈相互适应。 ## 3 Datasets and Preprocessing 本节介绍本研究采用的数据集及模型特定的预处理步骤。 ### 3.1 Datasets 主要数据集包含 2,192 名患有临床孤立综合征 \(CIS\) 或复发型多发性硬化症的患者,他们参与了布列根和妇女医院 \(Brigham and Women’s Hospital\) 的多发性硬化症综合纵向调查 \(CLIMB\) 研究 Gauthier et al\. (2006 https://arxiv.org/html/2604.16378#bib.bib12)\。该研究已获得 Mass General Brigham 机构审查委员会批准。鉴于该二次使用协议属于低风险性质且已有生物样本库的前期同意,豁免了个人患者知情同意书的要求。 任务目标是判断患者在首次就诊 \(FV\) 后三年内是否可能经历临床复发。纳入标准要求患者在 \(FV\) 时年龄≥18岁,且诊断为 \(CIS\) 或复发型 \(MS\)。需要至少三年的随访以确保充分的观察期。为排除对早期疾病活动度评估的干扰,排除了基线时为进展型 \(MS\) 或在 \(FV\) 前接受过高效能或长效治疗的患者。\(FV\) 时记录的预测变量包括人口统计学因素(年龄、性别、种族)、病程、\(EDSS\)、\(MS\) 亚型、复发史、MRI 活动指标、吸烟史、家族史及治疗相关变量。结局定义为 \(FV\) 后 30 天至三年内发生的经临床医生判定的复发事件。 为了评估超出 \(MS\) 预测任务的泛化能力,使用了 UCI ML Repository Asuncion and Newman (2007 https://arxiv.org/html/2604.16378#bib.bib5)\ 中的两个广泛使用的基准数据集。威斯康星乳腺癌诊断数据集包含 569 个样本和 30 个连续特征,用于区分恶性肿瘤与良性肿瘤 Street et al\. (1993 https://arxiv.org/html/2604.16378#bib.bib25)\。BRFSS 糖尿病数据集包含 70,692 个样本和 8 个临床变量,用于预测糖尿病与非糖尿病 Centers for Disease Control and Prevention (2015 https://arxiv.org/html/2604.16378#bib.bib8)\。它们提供了与 \(MS\) 队列不同的中等规模数据集,同时保留了可比的表格输入特性。 对于每个数据集,样本按 80/20 的比例随机划分为训练集和测试集。模型训练与超参数选择均在训练部分进行,最终性能在预留的测试集上评估。 ### 3.2 EHR-to-Text Reformulation for LLM 每条 \(EHR\) 记录被重构为标准的患者卡片表示形式,即属性-值对的序列。所得表示兼容基于 Transformer 的语言模型,并保留了原始特征矩阵的全部信息内容。图 1 (https://arxiv.org/html/2604.16378#S3.F1) 展示了一个示例 \(MS\) 患者卡片。该转换是确定性的,不引入任何额外的合成叙述内容。相同的编码模板一致地应用于专有数据集和公开数据集的所有记录。 Input Age: 34.2 years Sex: Male Race: Black or African American Disease Duration at First Visit: 1.3 years Disease Category: Relapsing-Remitting MS EDSS Score: 1.5 Total Relapses Before FV: 2 ⋮ New T2 Lesion in Past Year: No New Gad Lesion in Past Year: Yes Future Relapse Label:No Figure 1: Sample EHR-to-Text Conversion ### 3.3 Preprocessing for Random Forest 对于 \(RF\) 方法,分类变量进行独热编码,连续变量保留原始尺度。在预处理阶段移除缺失值超过 50% 的特征。\(MS\) 数据集中的类别不平衡问题(正样本比例≈36%)通过使用 `class_weight='balanced_subsample'` 的成本敏感学习来解决,该设置按类别频率的反比重新加权类别。对于独立的 \(RF\) 基线模型,超参数通过训练数据上的 10 折交叉验证网格搜索进行选择。得出的配置随后在整个后续实验及 \(RCT\) 框架的各次迭代中固定不变。在 \(LLM\) 的 \(PPO\) 训练期间,正样本以 1.5 的权重进行过采样以提高其采样概率。非对称奖励对假阴性 \(FN=-1.5\) 的惩罚重于假阳性 \(FP=-0.2\),以鼓励模型对少数类的敏感性。 在迭代协同训练过程中,\(RF\) 模型在融合了 \(LLM\) 衍生嵌入的增强特征空间上进行训练。 Refer to caption Figure 2: RCT Iterative Mutual Improvement Framework ## 4 Method 图 2 (https://arxiv.org/html/2604.16378#S3.F2) 展示了 \(RCT\) 框架的结构。结构化输入被重构为文本(第 3.2 节 (https://arxiv.org/html/2604.16378#S3.SS2))并由 \(LLM\) 处理以生成上下文嵌入。这些嵌入经过降维处理后与原始特征拼接,用于训练 \(RF\) 分类器。\(RF\) 生成校准后的概率估计值,与真实标签监督信号共同定义混合奖励,进而通过强化学习更新 \(LLM\)。该过程不断重复直至收敛。从概念上讲,\(RF\) 对 \(LLM\) 的预测提供反馈,而 \(LLM\) 生成增强 \(RF\) 特征空间的上下文嵌入。两个模型通过交替优化交换互补信息。接下来,我们将正式定义问题设定、\(LLM\) 更新、\(RF\) 更新以及整体训练流程来形式化这一框架。 ### 4.1 Problem Formulation 考虑一个基于表格数据的二元预测问题...
相似文章
CoEvolve:通过智能体-数据互进化训练LLM智能体
CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。
GFT:基于无偏群组优势与动态系数修正,从模仿迈向奖励微调
# 论文页面 - GFT:基于无偏群组优势与动态系数修正,从模仿迈向奖励微调 来源:[https://huggingface.co/papers/2604.14258](https://huggingface.co/papers/2604.14258) ## 摘要 Group Fine-Tuning 通过利用多样化的回复群组和自适应权重边界来解决监督微调的局限性,从而提升训练稳定性与效率。大语言模型通常在后训练中使用[监督微调](https://hug
RL²:通过缓慢强化学习实现快速强化学习
RL²将快速强化学习算法编码为循环神经网络的权重,通过缓慢的通用强化学习来学习,使智能体能够像生物学习一样通过少量试验快速适应新任务。该方法在小规模老虎机问题和大规模基于视觉的导航任务上都展现了强大性能。
基于对比 LLM 微调对齐对话附和信号与语境表征
KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架,通过在对话转写文本上微调 LLMs,并结合对比学习构建联合嵌入空间,以实现对对话附和信号与语境的精准对齐。结果表明,相较于以往方法,该方案显著提升了语境与附和信号的匹配检索性能。
RADS:基于强化学习的样本选择提升低资源、不平衡临床场景下的迁移学习效果
RADS 利用强化学习挑选最具信息量的样本进行少样本微调,在低资源且极度不平衡的临床数据集上显著提高迁移学习准确率。