on-policy

#on-policy

OPID：面向智能体强化学习的在线策略技能蒸馏

arXiv cs.CL ↗ · 3天前缓存

OPID 是一个框架，它从完成的在线策略轨迹中提取密集的词元级监督信号，用于语言智能体的强化学习，通过分层技能（情节级和步骤级）来提高样本效率和鲁棒性。

0 人收藏 0 人点赞

#on-policy

OPID: 同策略技能蒸馏用于智能体强化学习

Hugging Face Daily Papers ↗ · 4天前缓存

OPID提出了一种同策略技能蒸馏框架，从完成的轨迹中提取密集后见监督，将基于结果的强化学习与词元级自蒸馏相结合，以提高语言智能体在多轮任务上的训练效率和性能。

0 人收藏 0 人点赞

#on-policy

DanceOPD：基于策略的生成场蒸馏

Hugging Face Daily Papers ↗ · 4天前缓存

DanceOPD提出了一种基于策略的生成场蒸馏框架，用于流匹配模型。该框架通过能力特定路由和基于速度的训练，统一了文本到图像生成、局部编辑和全局编辑，在保持基准生成质量的同时，提升了多能力组合。

0 人收藏 0 人点赞

#on-policy

向自我未来学习：面向扩散大语言模型的自策略知识蒸馏

arXiv cs.CL ↗ · 2026-06-17 缓存

介绍了 d-OPSD，这是首个面向扩散大语言模型的自策略知识蒸馏框架，采用后缀条件和步骤级别监督，在推理基准上优于 RLVR 和 SFT 基线。

0 人收藏 0 人点赞

#on-policy

当上下文回归：面向策略内蒸馏的稳健内化

arXiv cs.LG ↗ · 2026-06-11 缓存

论文发现，将特权上下文重新引入蒸馏后的学生模型会导致性能下降（上下文诱导退化），并提出了一种轻量级一致性正则化器，该正则化器锚定无上下文输出以缓解此问题，从而在12种配置中提高了稳健性。

0 人收藏 0 人点赞

#on-policy

通过在线策略蒸馏实现数据高效的自回归到扩散语言模型

arXiv cs.CL ↗ · 2026-06-08 缓存

本文介绍了OPDLM，一种通过在线策略蒸馏将自回归语言模型转换为扩散语言模型的方法，所需训练令牌数量减少15倍到7000倍，同时保留原始模型的知识。

0 人收藏 0 人点赞

#on-policy

SG-OPD：通过符号一致性门控和分阶段教师采样的符号门控在线策略蒸馏

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

符号门控在线策略蒸馏（SG-OPD）通过使用二元验证器作为教师监督的信任信号，增强了标准在线策略蒸馏，在竞赛级数学推理基准上提升了性能。

0 人收藏 0 人点赞

#on-policy

@dwarkesh_sp: 最近遇到了 @srush_nlp，他给我即兴讲解了一下定向在线自蒸馏的工作原理……

X AI KOLs Following ↗ · 2026-06-04 缓存

Dwarkesh Patel 分享了 Sasha Rush 对定向在线自蒸馏的解释，其中提示标记被插入到轨迹中，以降低特定模型错误的权重，而无需新的 rollout。

0 人收藏 0 人点赞

#on-policy

弱批评者造就强学习者：面向可扩展监督的在线策略批评蒸馏

arXiv cs.AI ↗ · 2026-06-02 缓存

提出使用弱模型作为批评者的在线策略批评蒸馏（OPCD），为强模型提供修正方向，从而增强推理能力和对齐，无需弱模型解决任务。

0 人收藏 0 人点赞

#on-policy

Trust Region On-Policy Distillation

Hugging Face Daily Papers ↗ · 2026-05-31 缓存

本文提出了信任区域在线策略蒸馏（Trust Region On-Policy Distillation, TrOPD），通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏，在推理和代码生成基准测试中优于现有方法。

0 人收藏 0 人点赞

#on-policy

RLHF的另一面：基于策略内反馈的奖励模型自监督改进

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

SAVE框架通过使用价值函数对策略内响应进行评分，并通过对比目标更新模型，从而改善奖励模型训练，在六个基准测试中取得了优于其他方法的结果。

0 人收藏 0 人点赞

#on-policy

SLAP：用于在线策略数据高效指令微调的分层损失剪枝方法

arXiv cs.CL ↗ · 2026-05-26 缓存

提出SLAP，一种用于大型语言模型高效指令微调的新型数据选择框架，它评估批次可学习性并采用分层采样，以在减少20-40%训练数据的情况下实现卓越性能。

0 人收藏 0 人点赞

#on-policy

基于策略的内在知识边界增强的高效智能体强化学习

Hugging Face Daily Papers ↗ · 2026-05-26 缓存

本文提出AKBE，一种用于LLM智能体强化学习的在策略方法，能够动态判断何时需要使用工具以及何时内部知识足够，平均准确率提升+1.85，工具调用次数相比标准智能体RL减少18%。

0 人收藏 0 人点赞

#on-policy

面向自回归视频生成的在线策略对抗流蒸馏

Hugging Face Daily Papers ↗ · 2026-05-25 缓存

提出对抗流蒸馏（AFD），用于将异质黑盒视频生成模型蒸馏为自回归学生模型，采用在线策略反馈和前向过程流匹配更新。

0 人收藏 0 人点赞

#on-policy

教师令牌何时可靠？基于位置加权的在线策略自蒸馏方法在推理中的应用

arXiv cs.LG ↗ · 2026-05-22 缓存

本文发现，推理蒸馏中教师令牌的可靠性具有轨迹结构特性，并提出了基于位置加权的在线策略自蒸馏方法（PW-OPSD），该方法通过应用递增的位置权重，在不增加教师计算量的情况下提升了性能。

0 人收藏 0 人点赞

#on-policy

@lateinteraction: 确实如此。但比GRPO更具可扩展性的强化学习范式的下一个突破已经到来：训练你的自教师……

X AI KOLs Following ↗ · 2026-05-19 缓存

介绍了教学强化学习（Pedagogical RL），这是一种新范式，模型学会利用特权信息主动采样成功且易于遵循的轨迹，从而成为自我教师，相比GRPO和同策略蒸馏方法，实现了高达40%的相对提升。

0 人收藏 0 人点赞

#on-policy

$f$-轨迹平衡：一种用于离策略和在线策略数据调优GFlowNet、生成模型和LLM的损失函数族

arXiv cs.LG ↗ · 2026-05-18 缓存

本文介绍了一类基于f-散度的损失函数族，用于训练GFlowNet和LLM等生成模型。这些损失函数在离策略下有效，同时匹配相应f-散度的在线策略梯度。应用包括分子发现和异步LLM调优。

0 人收藏 0 人点赞

#on-policy

使用基于策略的自蒸馏方法降低LLM安全对齐中的安全税

arXiv cs.LG ↗ · 2026-05-18 缓存

本文介绍了OPSA，一种用于LLM安全对齐的基于策略的自蒸馏方法，该方法通过在模型自身的轨迹上进行训练，并使用教师翻转率激活潜在的安全推理，从而降低了安全税，在多个模型规模上实现了更强的安全-推理权衡。

0 人收藏 0 人点赞

#on-policy

始终学习，始终混合：高效简单的全时数据混合

arXiv cs.CL ↗ · 2026-05-18 缓存

本文介绍了OP-Mix，一种数据混合算法，它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合，从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案，而计算量仅为基线方法的一小部分；在预训练中将平均困惑度提升了6.3%，在持续学习场景中减少了66-95%的计算量。

0 人收藏 0 人点赞

#on-policy

基于同伴成功与失败的多 rollout 在策略蒸馏

arXiv cs.LG ↗ · 2026-05-14 缓存

提出多 rollout 在策略蒸馏 (MOPD)，一种将教师条件化于同伴成功和失败的 rollout 以提供更密集的 token 级监督进行语言模型后训练的方法，在多个基准上提升了性能。

0 人收藏 0 人点赞

on-policy

提交意见反馈