通过随机选择的少样本指导提升基于可验证奖励的强化学习
摘要
FEST是一种少样本演示引导的强化学习算法,通过结合监督信号、在线策略学习和加权训练以防止过拟合,仅需极少的监督微调数据即可实现强劲性能。
查看缓存全文
缓存时间: 2026/05/15 16:26
论文页面 - 通过随机选取的少样本引导提升基于可验证奖励的强化学习
来源:https://huggingface.co/papers/2605.15012
摘要
FEST 是一种少样本演示引导的强化学习算法,通过结合监督信号、在线策略学习和加权训练来防止过拟合,仅需极少的监督微调数据即可取得强劲性能。
基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards,RLVR)在开发具有思维链展开能力的大语言模型(LLMs)方面取得了巨大成功,广泛应用于数学和编程等任务。然而,在那些难以生成正确展开的困难问题上,RLVR 的样本效率仍然不足。先前的工作提出通过演示引导的 RLVR 来解决此问题,即在 RL 失效时进行监督微调(SFT);但 SFT 通常需要大量数据,获取成本高昂。本文提出 FEST,一种少样本演示引导的 RLVR 算法。该算法仅需从 SFT 数据集中随机选取 128 个演示,就能取得令人信服的结果。我们发现三个组件对成功至关重要:监督信号、在线策略信号以及对少样本 SFT 数据集施加衰减权重以防止多轮训练中的过拟合。在多个基准测试中,FEST 以数量级更少的 SFT 数据超越基线方法,甚至在使用完整数据集时与它们的性能持平。
查看 arXiv 页面 (https://arxiv.org/abs/2605.15012)查看 PDF (https://arxiv.org/pdf/2605.15012)GitHub0 (https://github.com/KaiYan289/FEST)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15012)
在你的智能体中获取本文:
hf papers read 2605\.15012
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型0
暂无模型关联本文
请在模型 README.md 中引用 arxiv.org/abs/2605.15012,以在本页建立链接。
引用本文的数据集0
暂无数据集关联本文
请在数据集 README.md 中引用 arxiv.org/abs/2605.15012,以在本页建立链接。
引用本文的 Spaces0
暂无 Space 关联本文
请在 Space README.md 中引用 arxiv.org/abs/2605.15012,以在本页建立链接。
包含本文的收藏0
暂无收藏包含本文
请将本文添加至一个收藏 (https://huggingface.co/new-collection),以在本页建立链接。
相似文章
从演示到奖励:VLM奖励模型的测试时提示优化
提出Demo2Reward,一种针对VLM奖励模型的测试时提示优化技术,利用少量专家演示,显著减少误报,并在无需额外模型训练的情况下改进机器人策略学习。
公平强化学习
公平强化学习引入了民主对齐,以整合来自不同代理的多个竞争性价值集,克服了传统RLHF的局限性,并通过黑盒策略包装器实现了数量级更快的优化。
基于预测奖励的强化学习
OpenAI 推出随机网络蒸馏 (RND),一种基于预测的方法,通过好奇心驱动强化学习智能体进行探索,无需演示或获取游戏状态信息就能在 Montezuma's Revenge 上达到人类水平的性能。
通过奖励倾斜分布匹配强化少步生成器
RTDMD是一个两阶段框架,结合分布匹配蒸馏与奖励引导的强化学习,以改进少步图像生成与人类偏好的一致性。它在仅需4步推理的情况下,在多个模型上取得了最先进的结果。
CEPO:基于对比证据策略优化的RLVR自我蒸馏
CEPO通过使用来自拒绝轨迹的对比信号来区分关键推理步骤和填充令牌,从而改进了基于可验证奖励的强化学习,在多模态数学推理基准上相比GRPO获得了更高的准确率。