通过随机选择的少样本指导提升基于可验证奖励的强化学习

Hugging Face Daily Papers 2026/05/14 00:00 论文

reinforcement-learning llm few-shot supervised-fine-tuning sample-efficiency math-reasoning coding

摘要

FEST是一种少样本演示引导的强化学习算法，通过结合监督信号、在线策略学习和加权训练以防止过拟合，仅需极少的监督微调数据即可实现强劲性能。

基于可验证奖励的强化学习（RLVR）在开发具有思维链展开的大型语言模型（LLMs）方面取得了巨大成功，适用于数学和编程等多种任务。然而，RLVR在难以生成正确展开的困难问题上样本效率较低。先前的工作提出通过演示引导的RLVR来解决此问题，即在强化学习失败时进行监督微调（SFT）；但SFT通常需要大量数据，获取成本较高。本文提出FEST，一种少样本演示引导的RLVR算法。该算法仅需从SFT数据集中随机选择128个演示即可取得令人瞩目的结果。我们发现三个组件对于成功至关重要：监督信号、在线策略信号以及对少样本SFT数据集使用衰减权重以防止多轮训练过拟合。在多个基准测试中，FEST使用的SFT数据量远少于基线方法，甚至在全数据集上也能达到与之相当的性能。

查看原文

查看缓存全文

缓存时间: 2026/05/15 16:26

论文页面 - 通过随机选取的少样本引导提升基于可验证奖励的强化学习

来源：https://huggingface.co/papers/2605.15012

摘要

FEST 是一种少样本演示引导的强化学习算法，通过结合监督信号、在线策略学习和加权训练来防止过拟合，仅需极少的监督微调数据即可取得强劲性能。

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards，RLVR）在开发具有思维链展开能力的大语言模型（LLMs）方面取得了巨大成功，广泛应用于数学和编程等任务。然而，在那些难以生成正确展开的困难问题上，RLVR 的样本效率仍然不足。先前的工作提出通过演示引导的 RLVR 来解决此问题，即在 RL 失效时进行监督微调（SFT）；但 SFT 通常需要大量数据，获取成本高昂。本文提出 FEST，一种少样本演示引导的 RLVR 算法。该算法仅需从 SFT 数据集中随机选取 128 个演示，就能取得令人信服的结果。我们发现三个组件对成功至关重要：监督信号、在线策略信号以及对少样本 SFT 数据集施加衰减权重以防止多轮训练中的过拟合。在多个基准测试中，FEST 以数量级更少的 SFT 数据超越基线方法，甚至在使用完整数据集时与它们的性能持平。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15012)查看 PDF (https://arxiv.org/pdf/2605.15012)GitHub0 (https://github.com/KaiYan289/FEST)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15012)

在你的智能体中获取本文：

hf papers read 2605\.15012

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

暂无模型关联本文

请在模型 README.md 中引用 arxiv.org/abs/2605.15012，以在本页建立链接。

引用本文的数据集0

暂无数据集关联本文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15012，以在本页建立链接。

引用本文的 Spaces0

暂无 Space 关联本文

请在 Space README.md 中引用 arxiv.org/abs/2605.15012，以在本页建立链接。

包含本文的收藏0

暂无收藏包含本文

请将本文添加至一个收藏 (https://huggingface.co/new-collection)，以在本页建立链接。

通过随机选择的少样本指导提升基于可验证奖励的强化学习

论文页面 - 通过随机选取的少样本引导提升基于可验证奖励的强化学习

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Spaces0

包含本文的收藏0

相似文章

从演示到奖励：VLM奖励模型的测试时提示优化

公平强化学习

基于预测奖励的强化学习

通过奖励倾斜分布匹配强化少步生成器

CEPO：基于对比证据策略优化的RLVR自我蒸馏

提交意见反馈