标签
OPID 是一个框架,它从完成的在线策略轨迹中提取密集的词元级监督信号,用于语言智能体的强化学习,通过分层技能(情节级和步骤级)来提高样本效率和鲁棒性。
OPID提出了一种同策略技能蒸馏框架,从完成的轨迹中提取密集后见监督,将基于结果的强化学习与词元级自蒸馏相结合,以提高语言智能体在多轮任务上的训练效率和性能。
DanceOPD提出了一种基于策略的生成场蒸馏框架,用于流匹配模型。该框架通过能力特定路由和基于速度的训练,统一了文本到图像生成、局部编辑和全局编辑,在保持基准生成质量的同时,提升了多能力组合。
介绍了 d-OPSD,这是首个面向扩散大语言模型的自策略知识蒸馏框架,采用后缀条件和步骤级别监督,在推理基准上优于 RLVR 和 SFT 基线。
论文发现,将特权上下文重新引入蒸馏后的学生模型会导致性能下降(上下文诱导退化),并提出了一种轻量级一致性正则化器,该正则化器锚定无上下文输出以缓解此问题,从而在12种配置中提高了稳健性。
本文介绍了OPDLM,一种通过在线策略蒸馏将自回归语言模型转换为扩散语言模型的方法,所需训练令牌数量减少15倍到7000倍,同时保留原始模型的知识。
符号门控在线策略蒸馏(SG-OPD)通过使用二元验证器作为教师监督的信任信号,增强了标准在线策略蒸馏,在竞赛级数学推理基准上提升了性能。
Dwarkesh Patel 分享了 Sasha Rush 对定向在线自蒸馏的解释,其中提示标记被插入到轨迹中,以降低特定模型错误的权重,而无需新的 rollout。
提出使用弱模型作为批评者的在线策略批评蒸馏(OPCD),为强模型提供修正方向,从而增强推理能力和对齐,无需弱模型解决任务。
本文提出了信任区域在线策略蒸馏(Trust Region On-Policy Distillation, TrOPD),通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏,在推理和代码生成基准测试中优于现有方法。
SAVE框架通过使用价值函数对策略内响应进行评分,并通过对比目标更新模型,从而改善奖励模型训练,在六个基准测试中取得了优于其他方法的结果。
提出SLAP,一种用于大型语言模型高效指令微调的新型数据选择框架,它评估批次可学习性并采用分层采样,以在减少20-40%训练数据的情况下实现卓越性能。
本文提出AKBE,一种用于LLM智能体强化学习的在策略方法,能够动态判断何时需要使用工具以及何时内部知识足够,平均准确率提升+1.85,工具调用次数相比标准智能体RL减少18%。
本文发现,推理蒸馏中教师令牌的可靠性具有轨迹结构特性,并提出了基于位置加权的在线策略自蒸馏方法(PW-OPSD),该方法通过应用递增的位置权重,在不增加教师计算量的情况下提升了性能。
介绍了教学强化学习(Pedagogical RL),这是一种新范式,模型学会利用特权信息主动采样成功且易于遵循的轨迹,从而成为自我教师,相比GRPO和同策略蒸馏方法,实现了高达40%的相对提升。
本文介绍了一类基于f-散度的损失函数族,用于训练GFlowNet和LLM等生成模型。这些损失函数在离策略下有效,同时匹配相应f-散度的在线策略梯度。应用包括分子发现和异步LLM调优。
本文介绍了OPSA,一种用于LLM安全对齐的基于策略的自蒸馏方法,该方法通过在模型自身的轨迹上进行训练,并使用教师翻转率激活潜在的安全推理,从而降低了安全税,在多个模型规模上实现了更强的安全-推理权衡。
本文介绍了OP-Mix,一种数据混合算法,它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合,从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案,而计算量仅为基线方法的一小部分;在预训练中将平均困惑度提升了6.3%,在持续学习场景中减少了66-95%的计算量。
提出多 rollout 在策略蒸馏 (MOPD),一种将教师条件化于同伴成功和失败的 rollout 以提供更密集的 token 级监督进行语言模型后训练的方法,在多个基准上提升了性能。