LongTraceRL:利用规则奖励从搜索代理轨迹学习长上下文推理
摘要
LongTraceRL 引入了分层干扰项构建和规则奖励设计,以通过强化学习改善语言模型中的长上下文推理。该方法通过知识图谱随机游走生成多跳问题,并利用搜索代理轨迹构建具有挑战性的干扰项,规则奖励提供实体级过程监督。
查看缓存全文
缓存时间: 2026/06/01 03:18
论文页面 - LongTraceRL:通过搜索智能体轨迹与评分奖励学习长上下文推理
来源:https://huggingface.co/papers/2605.31584
摘要
LongTraceRL 通过分层干扰项构建和评分奖励设计,解决大语言模型中的长上下文推理挑战,从而提升推理质量。
长上下文推理 (https://huggingface.co/papers?q=Long-context%20reasoning) 仍是大型语言模型 (https://huggingface.co/papers?q=large%20language%20models) 的核心挑战,模型常难以在大量干扰内容中定位并整合关键信息。基于可验证奖励的强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning%20with%20verifiable%20rewards) (RLVR (https://huggingface.co/papers?q=RLVR)) 在该任务上已展现潜力,但现有方法受限于低混淆度的干扰项以及仅能提供结果奖励、无法监督中间推理步骤的稀疏信号。为此,我们提出 LongTraceRL。在数据构建方面,我们通过知识图谱随机游走 (https://huggingface.co/papers?q=knowledge%20graph%20random%20walks) 生成多跳问题,并利用搜索智能体轨迹 (https://huggingface.co/papers?q=search%20agent%20trajectories) 构建分层干扰项 (https://huggingface.co/papers?q=tiered%20distractors):即智能体已阅读但未引用的文档(高混淆度)和搜索结果中出现但从未打开的文档(低混淆度),以此生成比随机采样或单次搜索所构建的上下文更具挑战性的训练样本。在奖励设计方面,我们提出评分奖励 (https://huggingface.co/papers?q=rubric%20reward),利用每条推理链上的黄金实体作为细粒度的实体级过程监督。该评分奖励 (https://huggingface.co/papers?q=rubric%20reward) 仅应用于最终答案正确的回复(正样本策略),从而区分正确回复中的推理质量,并防止奖励作弊 (https://huggingface.co/papers?q=reward%20hacking)。在三个推理 LLM(4B–30B)以及五个长上下文基准上的实验表明,LongTraceRL 始终优于强基线,并鼓励全面、基于证据的推理。代码、数据集和模型请访问 https://github.com/THU-KEG/LongTraceRL{https://github.com/THU-KEG/LongTraceRL}。
查看 arXiv 页面 (https://arxiv.org/abs/2605.31584)查看 PDF (https://arxiv.org/pdf/2605.31584)GitHub4 (https://github.com/THU-KEG/LongTraceRL)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31584)
在您的智能体中获取此论文:
hf papers read 2605.31584
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.31584 以从本页链接它。
引用此论文的数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.31584 以从本页链接它。
引用此论文的 Space0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.31584 以从本页链接它。
包含此论文的收藏集0
无收藏集包含此论文
将本论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接它。
相似文章
@rohanpaul_ai: 一篇优秀的综述论文,绘制了面向LLM的智能体强化学习地图,展示了模型如何通过跨时间行动来学习。涵盖…
一篇关于面向LLM的智能体强化学习的综述论文,将500多篇相关工作映射到能力和应用两个部分,展示了模型如何通过跨时间行动来学习。
“我的训练奖励那些让人感到满意的回应”。终于说了些实话。
一篇关于AI训练奖励那些被视为令人满意的回应的评论,表达了对弱势用户的担忧。
@verityw_: 通用机器人策略能学习许多有用技能。面对新任务时,我们如何触发相关行为?我们…
介绍了流反转引导(FRS)方法,通过反向并重新去噪一个流匹配通用策略,将语义推理产生的粗略动作细化为精确的机器人动作,从而改进零样本控制并支持策略学习。
Maxproof
MaxProof 引入了一种测试时缩放框架,该框架结合了证明生成、验证和修复,使用生成-验证器强化学习,使 M3 模型在 IMO 2025 和 USAMO 2026 上超过了人类金牌阈值。
周末体验了 Apodex 4b,顺便快速看了下 35b mini
作者测试了 Apodex 4B-SFT 和 35B mini 模型,发现 4B-SFT 在多跳搜索任务中超越其他 4B 模型且无幻觉,并指出将答案检查与生成分离的设计理念。