LongTraceRL:利用规则奖励从搜索代理轨迹学习长上下文推理

Hugging Face Daily Papers 论文

摘要

LongTraceRL 引入了分层干扰项构建和规则奖励设计,以通过强化学习改善语言模型中的长上下文推理。该方法通过知识图谱随机游走生成多跳问题,并利用搜索代理轨迹构建具有挑战性的干扰项,规则奖励提供实体级过程监督。

长上下文推理仍然是大型语言模型的一个核心挑战,这些模型常常无法在大量分散注意力的内容中定位并整合关键信息。带有可验证奖励的强化学习(RLVR)在该任务上显示出潜力,然而现有方法受到低混淆度干扰项和稀疏的、仅基于结果的奖励信号的限制,无法监督中间推理步骤。为了解决这些问题,我们提出了 LongTraceRL。在数据构建方面,我们通过知识图谱随机游走生成多跳问题,并利用搜索代理轨迹构建分层干扰项:代理已阅读但未引用的文档(高混淆度)和在搜索结果中出现但从未打开的文档(低混淆度),从而产生比随机采样或单次搜索构建的训练上下文更具挑战性的训练上下文。在奖励设计方面,我们提出了一种规则奖励,利用每条推理链上的黄金实体作为细粒度的实体级过程监督。该规则奖励仅应用于最终答案正确的响应(仅正向策略),用于区分正确响应之间的推理质量,并防止奖励欺诈。在五个长上下文基准测试上对三个推理型大语言模型(4B-30B)进行的实验表明,LongTraceRL 始终优于强基线,并鼓励全面、有据可依的推理。代码、数据集和模型可在 https://github.com/THU-KEG/LongTraceRL{https://github.com/THU-KEG/LongTraceRL} 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/01 03:18

论文页面 - LongTraceRL:通过搜索智能体轨迹与评分奖励学习长上下文推理

来源:https://huggingface.co/papers/2605.31584

摘要

LongTraceRL 通过分层干扰项构建和评分奖励设计,解决大语言模型中的长上下文推理挑战,从而提升推理质量。

长上下文推理 (https://huggingface.co/papers?q=Long-context%20reasoning) 仍是大型语言模型 (https://huggingface.co/papers?q=large%20language%20models) 的核心挑战,模型常难以在大量干扰内容中定位并整合关键信息。基于可验证奖励的强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning%20with%20verifiable%20rewards) (RLVR (https://huggingface.co/papers?q=RLVR)) 在该任务上已展现潜力,但现有方法受限于低混淆度的干扰项以及仅能提供结果奖励、无法监督中间推理步骤的稀疏信号。为此,我们提出 LongTraceRL。在数据构建方面,我们通过知识图谱随机游走 (https://huggingface.co/papers?q=knowledge%20graph%20random%20walks) 生成多跳问题,并利用搜索智能体轨迹 (https://huggingface.co/papers?q=search%20agent%20trajectories) 构建分层干扰项 (https://huggingface.co/papers?q=tiered%20distractors):即智能体已阅读但未引用的文档(高混淆度)和搜索结果中出现但从未打开的文档(低混淆度),以此生成比随机采样或单次搜索所构建的上下文更具挑战性的训练样本。在奖励设计方面,我们提出评分奖励 (https://huggingface.co/papers?q=rubric%20reward),利用每条推理链上的黄金实体作为细粒度的实体级过程监督。该评分奖励 (https://huggingface.co/papers?q=rubric%20reward) 仅应用于最终答案正确的回复(正样本策略),从而区分正确回复中的推理质量,并防止奖励作弊 (https://huggingface.co/papers?q=reward%20hacking)。在三个推理 LLM(4B–30B)以及五个长上下文基准上的实验表明,LongTraceRL 始终优于强基线,并鼓励全面、基于证据的推理。代码、数据集和模型请访问 https://github.com/THU-KEG/LongTraceRL{https://github.com/THU-KEG/LongTraceRL}。

查看 arXiv 页面 (https://arxiv.org/abs/2605.31584)查看 PDF (https://arxiv.org/pdf/2605.31584)GitHub4 (https://github.com/THU-KEG/LongTraceRL)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31584)

在您的智能体中获取此论文:

hf papers read 2605.31584

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.31584 以从本页链接它。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.31584 以从本页链接它。

引用此论文的 Space0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.31584 以从本页链接它。

包含此论文的收藏集0

无收藏集包含此论文

将本论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接它。

相似文章

Maxproof

Hacker News Top

MaxProof 引入了一种测试时缩放框架,该框架结合了证明生成、验证和修复,使用生成-验证器强化学习,使 M3 模型在 IMO 2025 和 USAMO 2026 上超过了人类金牌阈值。