@SOURADIPCHAKR18:典型的RL算法和同策略蒸馏方法是盲目采样器:它们使用特权信息来评分rollouts……

X AI KOLs Following 论文

摘要

这项工作提出使用特权信息来主动采样强化学习中的rollouts,改进了典型的盲目采样方法。

🚨典型的RL算法和同策略蒸馏方法是盲目采样器:它们使用特权信息来评分rollouts,但不用于*发现*它们。 我们问:能否使用特权信息来*主动采样*RL希望用计算偶然发现的rollouts? ⤵️ 教学式RL https://t.co/c6BcLBDIVv
查看原文
查看缓存全文

缓存时间: 2026/05/15 00:45

🚨典型的RL算法和同策略蒸馏方法是盲目采样器:它们使用特权信息来对轨迹进行评分,但并非用于发现它们。

我们提出:能否利用特权信息来主动采样那些RL希望靠计算力偶然碰到的轨迹?

⤵️ 教学式RL https://t.co/c6BcLBDIVv

相似文章

基于预测奖励的强化学习

OpenAI Blog

OpenAI 推出随机网络蒸馏 (RND),一种基于预测的方法,通过好奇心驱动强化学习智能体进行探索,无需演示或获取游戏状态信息就能在 Montezuma's Revenge 上达到人类水平的性能。

超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐

Papers with Code Trending

本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。

基于评分细则的在策略蒸馏

Hugging Face Daily Papers

本文提出了 ROPD,一种基于评分细则的在策略蒸馏框架,相比传统的基于 logits 的方法,该框架在样本效率上表现更优。它通过使用结构化的语义评分细则而非教师 logits,实现了黑盒场景下的模型对齐。