大语言模型何时能在弱监督下学会推理？

Hugging Face Daily Papers 2026/04/20 00:00 论文

llm reinforcement-learning weak-supervision reasoning fine-tuning rlvr reward-modeling

摘要

# 论文页面 - 大语言模型何时能在弱监督下学会推理？来源：[https://huggingface.co/papers/2604.18574](https://huggingface.co/papers/2604.18574) ## 摘要研究表明，在弱监督下的推理任务中，模型泛化能力取决于奖励饱和动态和推理忠实度，而对显式轨迹进行监督微调对于成功适应至关重要。大语言模型通过[reinfor

大语言模型通过可验证奖励强化学习（RLVR）在推理能力上取得了显著提升。然而，随着模型能力的提升，构建高质量奖励信号变得愈发困难，因此理解 RLVR 在更弱形式的监督下何时能够成功至关重要。我们在多种模型家族和推理领域中进行了一项系统的实证研究，涵盖三种弱监督设置：数据稀缺、噪声奖励和自监督代理奖励。我们发现，泛化能力受训练奖励饱和动态的支配：能够泛化的模型表现出延长的预饱和阶段，在此期间训练奖励与下游性能同步提升，而快速饱和的模型只是在记忆而非学习。我们将推理忠实度——定义为中间步骤在逻辑上支持最终答案的程度——确定为一种 RL 前置属性，用于预测模型落入哪种机制，而仅凭输出多样性则无法提供有效信息。基于这些发现，我们分离了持续预训练与监督微调（SFT）各自的贡献，发现在弱监督下，对显式推理轨迹进行 SFT 是泛化的必要条件，而在领域数据上进行持续预训练则能放大该效果。将这些干预措施共同应用于 Llama3.2-3B-Base，使其在之前基础模型失效的全部三种设置下均实现了泛化。

查看原文

查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - When Can LLMs Learn to Reason with Weak Supervision?

来源：https://huggingface.co/papers/2604.18574

摘要

研究表明，弱监督下模型在推理任务中的泛化能力取决于奖励饱和动态与推理忠实度，而基于显式轨迹的监督微调对于成功适应至关重要。

大语言模型通过可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）(https://huggingface.co/papers?q=reinforcement%20learning%20with%20verifiable%20rewards) 在推理能力上取得了显著提升。然而，随着模型能力的增强，构建高质量的奖励信号 (https://huggingface.co/papers?q=reward%20signals) 变得愈发困难，因此理解 RLVR 在何种更弱的监督形式下能够成功至关重要。我们在三种弱监督 (https://huggingface.co/papers?q=weak%20supervision) 设置下——数据稀缺、奖励噪声，以及自监督代理奖励——针对不同模型家族与推理领域开展了一项系统的实证研究。我们发现，泛化能力受训练奖励饱和动态 (https://huggingface.co/papers?q=reward%20saturation%20dynamics) 支配：能够泛化的模型会经历较长的预饱和阶段，在此期间训练奖励与下游性能同步提升；而快速饱和的模型只是在死记硬背，而非真正学习。我们将推理忠实度 (https://huggingface.co/papers?q=reasoning%20faithfulness)——定义为中间步骤在逻辑上支持最终答案的程度——确定为可预测模型落入何种状态的 RL 前属性，而仅凭输出多样性则不具信息价值。基于这些发现，我们解耦了持续预训练 (https://huggingface.co/papers?q=continual%20pre-training) 与监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning) 各自的作用，发现基于显式推理轨迹 (https://huggingface.co/papers?q=explicit%20reasoning%20traces) 的 SFT 是弱监督 (https://huggingface.co/papers?q=weak%20supervision) 下实现泛化的必要条件，而在领域数据上进行持续预训练 (https://huggingface.co/papers?q=continual%20pre-training) 则能放大该效果。将这些干预手段共同应用于 Llama3.2-3B-Base，使模型在先前基础模型全部失败的三种设置下均实现了泛化。

查看 arXiv 页面 (https://arxiv.org/abs/2604.18574) 查看 PDF (https://arxiv.org/pdf/2604.18574) 项目页面 (https://salmanrahman.net/rlvr-weak-supervision) GitHub1 (https://github.com/pavelslab-nyu/rlvr-weak-supervision) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.18574)

在你的 agent 中获取这篇论文：

hf papers read 2604.18574

还没有安装最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型引用此论文

在模型的 README.md 中引用 arxiv.org/abs/2604.18574，即可从此页面建立链接。

引用此论文的数据集 0

暂无数据集引用此论文

在数据集的 README.md 中引用 arxiv.org/abs/2604.18574，即可从此页面建立链接。

引用此论文的 Spaces 0

暂无 Space 引用此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2604.18574，即可从此页面建立链接。

包含此论文的收藏 0

暂无收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection)，即可从此页面建立链接。

大语言模型何时能在弱监督下学会推理？

论文页面 - When Can LLMs Learn to Reason with Weak Supervision?

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏 0

相似文章

大语言模型在最长简单链式推理任务上的表现如何：关于等价类问题的实证研究

大语言模型何时进行推理？基于熵相变的动力系统视角

强化学习能否教会大型语言模型进行长程推理？表达力是关键

学习如何让大语言模型进行推理

@burny_tech: 隐式推理综述 "大型语言模型(LLMs)展现了令人印象深刻的推理能力，尤其是……

提交意见反馈