大语言模型何时能在弱监督下学会推理?
摘要
# 论文页面 - 大语言模型何时能在弱监督下学会推理? 来源:[https://huggingface.co/papers/2604.18574](https://huggingface.co/papers/2604.18574) ## 摘要 研究表明,在弱监督下的推理任务中,模型泛化能力取决于奖励饱和动态和推理忠实度,而对显式轨迹进行监督微调对于成功适应至关重要。大语言模型通过[reinfor
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - When Can LLMs Learn to Reason with Weak Supervision?
来源:https://huggingface.co/papers/2604.18574
摘要
研究表明,弱监督下模型在推理任务中的泛化能力取决于奖励饱和动态与推理忠实度,而基于显式轨迹的监督微调对于成功适应至关重要。
大语言模型通过可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)(https://huggingface.co/papers?q=reinforcement%20learning%20with%20verifiable%20rewards) 在推理能力上取得了显著提升。然而,随着模型能力的增强,构建高质量的奖励信号 (https://huggingface.co/papers?q=reward%20signals) 变得愈发困难,因此理解 RLVR 在何种更弱的监督形式下能够成功至关重要。我们在三种弱监督 (https://huggingface.co/papers?q=weak%20supervision) 设置下——数据稀缺、奖励噪声,以及自监督代理奖励——针对不同模型家族与推理领域开展了一项系统的实证研究。我们发现,泛化能力受训练奖励饱和动态 (https://huggingface.co/papers?q=reward%20saturation%20dynamics) 支配:能够泛化的模型会经历较长的预饱和阶段,在此期间训练奖励与下游性能同步提升;而快速饱和的模型只是在死记硬背,而非真正学习。我们将推理忠实度 (https://huggingface.co/papers?q=reasoning%20faithfulness)——定义为中间步骤在逻辑上支持最终答案的程度——确定为可预测模型落入何种状态的 RL 前属性,而仅凭输出多样性则不具信息价值。基于这些发现,我们解耦了持续预训练 (https://huggingface.co/papers?q=continual%20pre-training) 与监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning) 各自的作用,发现基于显式推理轨迹 (https://huggingface.co/papers?q=explicit%20reasoning%20traces) 的 SFT 是弱监督 (https://huggingface.co/papers?q=weak%20supervision) 下实现泛化的必要条件,而在领域数据上进行持续预训练 (https://huggingface.co/papers?q=continual%20pre-training) 则能放大该效果。将这些干预手段共同应用于 Llama3.2-3B-Base,使模型在先前基础模型全部失败的三种设置下均实现了泛化。
查看 arXiv 页面 (https://arxiv.org/abs/2604.18574) 查看 PDF (https://arxiv.org/pdf/2604.18574) 项目页面 (https://salmanrahman.net/rlvr-weak-supervision) GitHub1 (https://github.com/pavelslab-nyu/rlvr-weak-supervision) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.18574)
在你的 agent 中获取这篇论文:
hf papers read 2604.18574
还没有安装最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无模型引用此论文
在模型的 README.md 中引用 arxiv.org/abs/2604.18574,即可从此页面建立链接。
引用此论文的数据集 0
暂无数据集引用此论文
在数据集的 README.md 中引用 arxiv.org/abs/2604.18574,即可从此页面建立链接。
引用此论文的 Spaces 0
暂无 Space 引用此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2604.18574,即可从此页面建立链接。
包含此论文的收藏 0
暂无收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection),即可从此页面建立链接。
相似文章
大语言模型在最长简单链式推理任务上的表现如何:关于等价类问题的实证研究
本实证研究通过评估大语言模型在等价类问题上的表现,以考察其长链推理能力。研究发现,非推理模型在此类任务上表现失败,而推理模型虽表现更好,但仍难以完全解决特定结构性难题。
大语言模型何时进行推理?基于熵相变的动力系统视角
本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。
强化学习能否教会大型语言模型进行长程推理?表达力是关键
本文介绍了 ScaleLogic 框架,该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调,逻辑表达力对于提升下游迁移能力和训练效率至关重要。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
@burny_tech: 隐式推理综述 "大型语言模型(LLMs)展现了令人印象深刻的推理能力,尤其是……
本综述全面概述了LLM中的隐式推理,探讨了在连续隐藏状态中执行多步推理且无需显式token级监督的方法。