@SOURADIPCHAKR18:典型的RL算法和同策略蒸馏方法是盲目采样器:它们使用特权信息来评分rollouts……
摘要
这项工作提出使用特权信息来主动采样强化学习中的rollouts,改进了典型的盲目采样方法。
🚨典型的RL算法和同策略蒸馏方法是盲目采样器:它们使用特权信息来评分rollouts,但不用于*发现*它们。
我们问:能否使用特权信息来*主动采样*RL希望用计算偶然发现的rollouts?
⤵️ 教学式RL https://t.co/c6BcLBDIVv
查看缓存全文
缓存时间: 2026/05/15 00:45
🚨典型的RL算法和同策略蒸馏方法是盲目采样器:它们使用特权信息来对轨迹进行评分,但并非用于发现它们。
我们提出:能否利用特权信息来主动采样那些RL希望靠计算力偶然碰到的轨迹?
⤵️ 教学式RL https://t.co/c6BcLBDIVv
相似文章
@SOURADIPCHAKR18:我们描述了关于*教学RL*的早期实验:一种苦教训式的*训练*特权自我教师…
介绍了教学RL,一种范式,其中训练特权自我教师以生成正确且易于遵循的轨迹,表明这是一个相对简单的RL问题。
基于预测奖励的强化学习
OpenAI 推出随机网络蒸馏 (RND),一种基于预测的方法,通过好奇心驱动强化学习智能体进行探索,无需演示或获取游戏状态信息就能在 Montezuma's Revenge 上达到人类水平的性能。
近似下一策略采样:在深度强化学习中替代保守目标策略更新
本文引入了近似下一策略采样(ANPS)作为深度强化学习中保守策略更新的替代方案。它提出了稳定值近似策略迭代(SV-API)和 SV-RL,通过将训练数据与下一策略的状态分布对齐,从而实现更大且更安全的策略更新。
超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐
本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。
基于评分细则的在策略蒸馏
本文提出了 ROPD,一种基于评分细则的在策略蒸馏框架,相比传统的基于 logits 的方法,该框架在样本效率上表现更优。它通过使用结构化的语义评分细则而非教师 logits,实现了黑盒场景下的模型对齐。