通过随机选择的少样本指导提升基于可验证奖励的强化学习

Hugging Face Daily Papers 论文

摘要

FEST是一种少样本演示引导的强化学习算法,通过结合监督信号、在线策略学习和加权训练以防止过拟合,仅需极少的监督微调数据即可实现强劲性能。

基于可验证奖励的强化学习(RLVR)在开发具有思维链展开的大型语言模型(LLMs)方面取得了巨大成功,适用于数学和编程等多种任务。然而,RLVR在难以生成正确展开的困难问题上样本效率较低。先前的工作提出通过演示引导的RLVR来解决此问题,即在强化学习失败时进行监督微调(SFT);但SFT通常需要大量数据,获取成本较高。本文提出FEST,一种少样本演示引导的RLVR算法。该算法仅需从SFT数据集中随机选择128个演示即可取得令人瞩目的结果。我们发现三个组件对于成功至关重要:监督信号、在线策略信号以及对少样本SFT数据集使用衰减权重以防止多轮训练过拟合。在多个基准测试中,FEST使用的SFT数据量远少于基线方法,甚至在全数据集上也能达到与之相当的性能。
查看原文
查看缓存全文

缓存时间: 2026/05/15 16:26

论文页面 - 通过随机选取的少样本引导提升基于可验证奖励的强化学习

来源:https://huggingface.co/papers/2605.15012

摘要

FEST 是一种少样本演示引导的强化学习算法,通过结合监督信号、在线策略学习和加权训练来防止过拟合,仅需极少的监督微调数据即可取得强劲性能。

基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards,RLVR)在开发具有思维链展开能力的大语言模型(LLMs)方面取得了巨大成功,广泛应用于数学和编程等任务。然而,在那些难以生成正确展开的困难问题上,RLVR 的样本效率仍然不足。先前的工作提出通过演示引导的 RLVR 来解决此问题,即在 RL 失效时进行监督微调(SFT);但 SFT 通常需要大量数据,获取成本高昂。本文提出 FEST,一种少样本演示引导的 RLVR 算法。该算法仅需从 SFT 数据集中随机选取 128 个演示,就能取得令人信服的结果。我们发现三个组件对成功至关重要:监督信号、在线策略信号以及对少样本 SFT 数据集施加衰减权重以防止多轮训练中的过拟合。在多个基准测试中,FEST 以数量级更少的 SFT 数据超越基线方法,甚至在使用完整数据集时与它们的性能持平。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15012)查看 PDF (https://arxiv.org/pdf/2605.15012)GitHub0 (https://github.com/KaiYan289/FEST)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15012)

在你的智能体中获取本文:

hf papers read 2605\.15012

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

暂无模型关联本文

请在模型 README.md 中引用 arxiv.org/abs/2605.15012,以在本页建立链接。

引用本文的数据集0

暂无数据集关联本文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15012,以在本页建立链接。

引用本文的 Spaces0

暂无 Space 关联本文

请在 Space README.md 中引用 arxiv.org/abs/2605.15012,以在本页建立链接。

包含本文的收藏0

暂无收藏包含本文

请将本文添加至一个收藏 (https://huggingface.co/new-collection),以在本页建立链接。

相似文章

公平强化学习

Reddit r/AI_Agents

公平强化学习引入了民主对齐,以整合来自不同代理的多个竞争性价值集,克服了传统RLHF的局限性,并通过黑盒策略包装器实现了数量级更快的优化。

基于预测奖励的强化学习

OpenAI Blog

OpenAI 推出随机网络蒸馏 (RND),一种基于预测的方法,通过好奇心驱动强化学习智能体进行探索,无需演示或获取游戏状态信息就能在 Montezuma's Revenge 上达到人类水平的性能。

通过奖励倾斜分布匹配强化少步生成器

Hugging Face Daily Papers

RTDMD是一个两阶段框架,结合分布匹配蒸馏与奖励引导的强化学习,以改进少步图像生成与人类偏好的一致性。它在仅需4步推理的情况下,在多个模型上取得了最先进的结果。

CEPO:基于对比证据策略优化的RLVR自我蒸馏

Hugging Face Daily Papers

CEPO通过使用来自拒绝轨迹的对比信号来区分关键推理步骤和填充令牌,从而改进了基于可验证奖励的强化学习,在多模态数学推理基准上相比GRPO获得了更高的准确率。