SPADER:多答案问答中的逐步同行优势与多样性感知探索奖励

arXiv cs.CL 论文

摘要

本文介绍了SPADER,一个用于多答案问答的强化学习框架,它使用逐步同行优势进行信用分配,并采用多样性感知探索奖励来提高长尾实体的召回率,在多个基准测试上取得了更好的性能。

arXiv:2606.00593v1 公告类型: 新 摘要:大型语言模型越来越多地被部署为工具增强的智能体,以获取超越参数化知识的信息。虽然最近的工作改进了长期工具使用推理,但大多数方法专注于具有单一正确答案的任务。相比之下,许多现实世界的查询需要发现一组全面的有效答案,这种设置被称为多答案问答(Multi-Answer QA)。这种设置提出了两个挑战:在长搜索轨迹上进行细粒度的信用分配,以及奖励对齐以持续探索超出简单高频实体的范围。我们提出SPADER,一个用于多答案问答中长期工具使用的强化学习框架。SPADER包括逐步同行优势(Step-wise Peer Advantage, SPA),这是一种无需评论家的逐步信用分配机制,它通过决策步骤对齐并行轨迹,并根据同行回报估计优势。它还包括一个多样性感知的探索奖励,通过提高罕见发现的权重并降低冗余发现的权重来促进长尾实体发现。在QAMPARI、Mintaka、WebQSP和QUEST上的实验表明,SPADER在召回率和整体F1分数上普遍优于基于提示的智能体、结果监督强化学习方法以及最近逐步监督方法。我们的代码和模型权重可在https://github.com/KhanCold/spader获取。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:38

# SPADER: 面向多答案问答的逐步同伴优势与多样性感知探索奖励  
来源:https://arxiv.org/html/2606.00593  

戚明诗1,\*, 康兆路2,\*, 周云帆1,翁迪3,†\\dagger, 吴颖才1  

1浙江大学CAD&CG国家重点实验室  
2北京大学软件与微电子学院  
3浙江大学软件技术学院  

\*同等贡献  
†\\dagger通讯作者  

###### 摘要  

大型语言模型越来越多地被部署为工具增强型智能体,以获取超出参数知识范围的信息。尽管近期工作改进了长视野工具使用推理,但大多数方法仍专注于具有单一正确答案的任务。相比之下,许多现实世界的查询需要发现一组全面的有效答案,这种设置被称为多答案问答。这种设置带来了两个挑战:长搜索轨迹上的细粒度信用分配,以及针对持续探索(超越容易的高频实体)的奖励对齐。我们提出 **SPADER**,一种用于多答案问答中长视野工具使用的强化学习框架。SPADER 包含逐步同伴优势 (SPA),一种无评论家的逐步信用分配机制,该机制按决策步骤对齐并行轨迹,并根据同伴回报估计优势。它还包含一种多样性感知探索奖励,通过提升稀有发现并降低冗余发现的权重来促进长尾实体发现。在 QAMPARI、Mintaka、WebQSP 和 QUEST 上的实验表明,与基于提示的智能体、结果监督的 RL 方法以及最近的逐步监督方法相比,SPADER 通常能提高召回率和总体 F1。我们的代码和模型权重可在 https://github.com/KhanCold/spader 获取。  

SPADER: 面向多答案问答的逐步同伴优势与多样性感知探索奖励  

戚明诗1,\*, 康兆路2,\*, 周云帆1,翁迪3,†\\dagger, 吴颖才1  
1浙江大学CAD&CG国家重点实验室  
2北京大学软件与微电子学院  
3浙江大学软件技术学院  
\*同等贡献  
†\\dagger通讯作者  

## 1 引言  

请参见题注  
图 1: 基础智能体在头部实体处饱和并提前停止,而 SPADER 在多样性感知激励机制下持续向长尾发射场扩展。  

大型语言模型 (LLM) 越来越多地被部署为智能体,与外部工具交互以获取超出其参数知识范围的信息。最近的工作已将检索增强生成 (Lewis et al., 2020 (https://arxiv.org/html/2606.00593#bib.bib13)) 扩展到长视野推理循环中,模型在其中迭代地发出搜索查询、审查检索到的证据,并决定何时终止并给出最终答案 (Yao et al., 2023 (https://arxiv.org/html/2606.00593#bib.bib5); Shao et al., 2023 (https://arxiv.org/html/2606.00593#bib.bib14); Trivedi et al., 2023 (https://arxiv.org/html/2606.00593#bib.bib15))。这种范式将问答从单一检索步骤转变为序列决策过程,智能体必须在每一步决定是发出更多查询还是终止并给出最终答案。大多数现有工作专注于只需一个正确答案的任务。相比之下,许多现实世界的信息需求是覆盖导向的,要求系统发现一组全面的有效答案。这种设置通常被称为多答案问答,它将核心挑战从识别单个正确答案转变为发现一组全面的有效答案。例如,对于查询“列出 2021 年成功进行轨道发射的全球发射场”(图 1 (https://arxiv.org/html/2606.00593#S1.F1)),智能体不应止步于肯尼迪航天中心等突出实体。相反,它必须持续探索以发现有效的长尾答案,如 PSCA 和库鲁。为了达成这种持续探索,智能体必须学会做出多步决策,包括何时重新表述查询、纳入哪些证据以及何时终止 (Yao et al., 2023 (https://arxiv.org/html/2606.00593#bib.bib5); Trivedi et al., 2023 (https://arxiv.org/html/2606.00593#bib.bib15))。因此,近期工作越来越多地将工具增强型问答构建为策略学习,并通过强化学习 (RL) 对其进行优化 (Li et al., 2025a (https://arxiv.org/html/2606.00593#bib.bib17); Jin et al., 2025 (https://arxiv.org/html/2606.00593#bib.bib39))。然而,在多答案问答中,现有的用于工具增强推理的 RL 方法仍然面临两个关键限制。首先,长视野搜索轨迹使得信用分配变得困难。当智能体在长时间步骤中混合执行生产性、冗余和不相关的搜索时,识别哪个步骤真正扩展了答案覆盖范围具有挑战性。演员-评论家方法,如 PPO (Schulman et al., 2017 (https://arxiv.org/html/2606.00593#bib.bib6)),依赖于价值网络,其估计误差在长视野中容易累积,使得信用分配不可靠且训练成本高昂。无评论家方法,如 GRPO (Shao et al., 2024 (https://arxiv.org/html/2606.00593#bib.bib7)),提高了稳定性,但其优势估计仍停留在轨迹层面,因此仅提供粗糙的信用分配信号。提供逐步反馈的方法 (Li et al., 2025b (https://arxiv.org/html/2606.00593#bib.bib9); Zheng et al., 2025a (https://arxiv.org/html/2606.00593#bib.bib8)) 通常依赖于外部评估器或过程注释,这限制了可扩展性。其次,常用的奖励公式与答案覆盖的目标对齐不佳。例如,基于 F1 的奖励平等地记分每个匹配的实体,没有为检索困难的长尾答案提供额外激励。因此,智能体缺乏持续探索长尾实体的动力,导致在检索到仅突出答案后过早停止。  

为了解决这些挑战,我们引入 **SPADER**(逐步同伴优势与多样性感知探索奖励),这是一种用于多答案问答中长视野工具使用的 RL 框架。SPADER 结合了两个互补的想法。首先,逐步同伴优势 (SPA) 提供了一种无评论家的细粒度信用分配机制。SPA 不是仅在序列级别评估轨迹,而是按决策步骤对齐并行轨迹,并使用同一步骤中同伴轨迹的经验未来回报分布来估计优势。这使得无需价值网络或外部评估器即可实现逐步策略优化。其次,一种多样性感知探索奖励明确鼓励长尾实体发现。除了检索有效实体的基础奖励外,每个实体的奖励根据其在轨迹组中的检索频率进行逆缩放,从而鼓励探索知识空间的新区域,同时减少冗余发现。  

我们在四个多答案问答基准上评估 SPADER:QAMPARI、Mintaka、WebQSP 和 QUEST。实验结果表明,与基于提示的智能体、结果监督的 RL 方法以及最近的逐步监督方法相比,SPADER 一致地提高了召回率和总体 F1。这些结果突出了在训练长视野工具使用智能体时,将细粒度信用分配与多样性感知探索激励相结合的重要性。  

我们总结贡献如下:  
- •我们提出了逐步同伴优势 (SPA),一种无评论家的逐步信用分配机制,按决策步骤对齐并行轨迹,并根据同伴轨迹回报分布推导出优势。  
- •我们引入了一种多样性感知探索奖励,通过动态奖励稀有发现同时减少对冗余高频实体的激励,从而促进长尾实体发现。  
- •在四个多答案问答基准上的广泛实验表明,SPADER 在答案覆盖率和总体问答性能上优于强提示方法、结果监督 RL 和逐步监督基线。  

## 2 相关工作  

### 2.1 工具增强型问答智能体  

早期的开放域问答智能体很大程度上依赖于单步检索流水线(例如 RAG),在生成前检索固定上下文 (Guu et al., 2020 (https://arxiv.org/html/2606.00593#bib.bib12); Lewis et al., 2020 (https://arxiv.org/html/2606.00593#bib.bib13); Karpukhin et al., 2020 (https://arxiv.org/html/2606.00593#bib.bib23); Xiong et al., 2021 (https://arxiv.org/html/2606.00593#bib.bib24); Izacard and Grave, 2021 (https://arxiv.org/html/2606.00593#bib.bib21); Izacard et al., 2023 (https://arxiv.org/html/2606.00593#bib.bib22))。这些流水线对于短事实查询有效,但对于迭代证据收集和多跳推理则不够稳健 (Yang et al., 2018 (https://arxiv.org/html/2606.00593#bib.bib25); Trivedi et al., 2022 (https://arxiv.org/html/2606.00593#bib.bib26))。因此,近期工作研究跨多个步骤交织推理和检索的工具增强型 LLM 智能体,包括 ReAct、Iter-RetGen、IRCoT 和 Search-o1 (Yao et al., 2023 (https://arxiv.org/html/2606.00593#bib.bib5); Shao et al., 2023 (https://arxiv.org/html/2606.00593#bib.bib14); Trivedi et al., 2023 (https://arxiv.org/html/2606.00593#bib.bib15); Li et al., 2025a (https://arxiv.org/html/2606.00593#bib.bib17))。这些智能体流水线通常能提升知识密集型和多跳问答基准的性能 (Yang et al., 2018 (https://arxiv.org/html/2606.00593#bib.bib25); Trivedi et al., 2022 (https://arxiv.org/html/2606.00593#bib.bib26); Izacard et al., 2023 (https://arxiv.org/html/2606.00593#bib.bib22))。  

### 2.2 多答案问答  

尽管大多数问答研究针对单答案场景,多答案问答 (Amouyal et al., 2023 (https://arxiv.org/html/2606.00593#bib.bib1); Malaviya et al., 2023 (https://arxiv.org/html/2606.00593#bib.bib4); Sen et al., 2022 (https://arxiv.org/html/2606.00593#bib.bib2); Yih et al., 2016 (https://arxiv.org/html/2606.00593#bib.bib3)) 要求模型发现一组全面的有效答案。先前的工作试图通过多种流水线增强来改善答案覆盖率,包括查询分解 (Min et al., 2020 (https://arxiv.org/html/2606.00593#bib.bib27); Perez et al., 2020 (https://arxiv.org/html/2606.00593#bib.bib40); Khot et al., 2023 (https://arxiv.org/html/2606.00593#bib.bib41))、迭代查询扩展 (Khattab et al., 2021 (https://arxiv.org/html/2606.00593#bib.bib42)) 和多样化的段落阅读 (Qi et al., 2021 (https://arxiv.org/html/2606.00593#bib.bib43); Asai et al., 2022 (https://arxiv.org/html/2606.00593#bib.bib44))。然而,这些方法很大程度上依赖于静态检索器和阅读器的启发式组合,缺乏动态机制来系统地探索长尾搜索空间。  

最近的 RL 驱动推理智能体通过学习检索和推理的自主策略,进一步扩展了工具增强型问答。诸如 DeepRAG (Guan et al., 2026 (https://arxiv.org/html/2606.00593#bib.bib16))、R1-Searcher (Song et al., 2025 (https://arxiv.org/html/2606.00593#bib.bib18))、Search-r1 (Jin et al., 2025 (https://arxiv.org/html/2606.00593#bib.bib39)) 和 DeepResearcher (Zheng et al., 2025b (https://arxiv.org/html/2606.00593#bib.bib19)) 等系统在复杂问答上表现出色。然而,这些系统中的标准奖励公式通常对每个找到的正确实体赋予相同的价值,而不考虑其检索难度。因此,现有智能体可能倾向于容易检索的实体,而忽视仍然可发现的长尾答案。  

### 2.3 强化学习中的细粒度信用分配  

在长视野推理中,有效的信用分配需要将稀疏奖励归因于中间步骤 (Sutton and Barto, 2018 (https://arxiv.org/html/2606.00593#bib.bib33); Arjona-Medina et al., 2019 (https://arxiv.org/html/2606.00593#bib.bib32))。经典的演员-评论家训练在这种模式下可能因长轨迹上的价值估计而不稳定或成本高昂 (Schulman et al., 2017 (https://arxiv.org/html/2606.00593#bib.bib6); Mnih et al., 2016 (https://arxiv.org/html/2606.00593#bib.bib34); Haarnoja et al., 2018 (https://arxiv.org/html/2606.00593#bib.bib35))。使用 PRM 和过程引导检索的逐步监督提高了反馈粒度 (Lightman et al., 2024 (https://arxiv.org/html/2606.00593#bib.bib20); Uesato et al., 2022 (https://arxiv.org/html/2606.00593#bib.bib28); Li et al., 2025b (https://arxiv.org/html/2606.00593#bib.bib9); Zheng et al., 2025a (https://arxiv.org/html/2606.00593#bib.bib8)),但通常需要昂贵的注释流水线或强大的外部教师。在另一个方向上,无评论家方法如 GRPO 从分组轨迹中估计相对优势 (Shao et al., 2024 (https://arxiv.org/html/2606.00593#bib.bib7); Ahmadian et al., 2024 (https://arxiv.org/html/2606.00593#bib.bib36)),提高了优化效率,但仍将信用聚合在轨迹层面。尽管近期工作(如 GiGPO、SALT)通过精确状态匹配实现了逐步信用分配 (Feng et al., 2025 (https://arxiv.org/html/2606.00593#bib.bib37); Li et al., 2026 (https://arxiv.org/html/2606.00593#bib.bib38)),但这种严格的要求限制了它们在多答案问答中的适用性,因为搜索观测本身具有噪声和高度可变性。相比之下,我们的 SPA 通过直接按决策步骤对齐轨迹来避免脆弱的状态匹配。  

## 3 任务形式化  

我们将基于 LLM 的长视野工具使用(用于多答案问答)形式化为一个马尔可夫决策过程 (MDP)。给定查询 \(q\) 及其真实实体集 \(\mathcal{E}_{\mathrm{GT}}\),智能体通过多步搜索调用与环境交互,以输出一个完整且准确的实体列表 \(\mathcal{E}_{\mathrm{final}}\)。在步骤 \(t\),状态 \(s_t = [q, a_1, o_1, \dots, a_{t-1}, o_{t-1}]\) 连接了 \(q\) 和交互历史,其中 \(a_{t-1}\) 是之前的动作,\(o_{t-1}\) 是搜索执行返回的文本观测。根据策略 \(\pi_{\theta}(a_t|s_t)\),智能体从动作空间 \(\mathcal{A} = \{a_{\mathrm{search}}, a_{\mathrm{answer}}\}\) 中选择一个动作:  
- •**搜索动作** (\(a_{\mathrm{search}}\)):智能体生成一个查询以调用外部搜索引擎。环境返回相关文档片段作为观测 \(o_t\),将状态转移到 \(s_{t+1}\),从而扩展知识覆盖范围而不触发最终答案生成。  
- •**终止动作** (\(a_{\mathrm{answer}}\)):基于累积状态 \(s_t\),智能体输出最终预测的实体集合 \(\mathcal{E}_{\mathrm{final}}\)。这作为吸收状态,立即终止当前轨迹。  

因此,一个完整轨迹严格表示为交替序列 \(\tau = (s_1, a_1, o_1, \dots, s_L, a_L)\),其中 \(L\) 是终止步骤。  

## 4 SPADER  

请参见题注  
图 2: SPADER 框架概览。在采样并行轨迹后,该框架使用多样性感知探索奖励评估每个搜索和回答动作。随后,逐步同伴优势 (SPA) 按决策步骤对齐这些轨迹,以计算未来回报 \(G_t\) 和逐步优势,通过逐步 GRPO 联合优化策略。  

为了解决长视野多答案问答中信用分配和覆盖导向探索的双重挑战,我们提出

相似文章

推理还是记忆?LLM强化学习中的方向感知多样性探索

arXiv cs.AI

本文介绍了DiRL,一种方向感知的强化学习框架,能够在LLM探索中区分推理驱动的多样性和记忆驱动的多样性。它从模型表示中提取内在的推理-记忆方向,并塑造奖励以优先考虑与推理一致的探索,在数学和通用推理基准上表现出改进。