利用知识图谱路径作为自进化搜索代理的中间监督
摘要
本文介绍了一种利用知识图谱路径作为中间监督来提升自进化搜索代理性能的方法。该方法通过将问题构建建立在关系上下文之上,并引入航点覆盖奖励(Waypoint Coverage Reward)以实现分级部分奖励,从而解决了搜索自博弈(Search Self-Play)中的瓶颈问题。
arXiv:2605.05702v1 公告类型:新论文
摘要:自进化搜索代理通过生成并解决自身的搜索任务,减少了对人工编写训练问题的依赖。我们基于搜索自博弈(Search Self-Play, SSP)这一典型的提议者(Proposer)与求解者(Solver)框架,在该框架中,问题通过多步搜索和推理进行生成和解答。然而在实践中,SSP 面临两个瓶颈:提议者仅从孤立的答案实体中构建问题,缺乏关系上下文,导致在早期的自博弈训练中产生大量无效或无法验证的问题;而求解者仅接收二值结果奖励,丢弃了部分正确搜索轨迹中的有用信号。我们通过复用知识图谱路径作为构建衍生的中间监督,同时用于问题构建和奖励塑造,以解决这两个瓶颈。首先,我们将问题构建建立在由大语言模型引导的知识图谱子图之上,为提议者提供关系上下文。其次,我们观察到构建和解答多跳问题可能涉及重叠的中间实体:用于制定问题的逻辑桥梁可为解答该问题提供近似航点。利用这一重叠性,我们引入了航点覆盖奖励(Waypoint Coverage Reward, WCR),根据求解者轨迹对构建路径上实体的覆盖程度,为其不正确的轨迹提供分级部分奖励,同时保留对正确答案的完整奖励。在七个问答基准和九种模型配置下,我们的方法在所有配置中均提升了相对于标准 SSP 的平均得分,并在多跳问答任务上取得了显著增益。这些结果表明,知识图谱路径可作为轻量级中间监督被复用,在无需额外任务特定人工标注或手动标记的过程步骤的情况下,提供关系引导和过程反馈。
查看缓存全文
缓存时间: 2026/05/08 08:35
# 将知识图谱路径作为自演化搜索代理的中间监督信号
来源:https://arxiv.org/html/2605.05702
Huyu Wu, Jun Liu, Xiaochi Wei, Yan Gao, Yi Wu, Yao Hu
Xiaohongshu Inc., 中国北京
\{liujun04, wanjianyi, luyun2, xiahou\}@xiaohongshu.com
[email protected]
[email protected]
###### 摘要
自演化搜索代理通过生成并解决自身的搜索任务,减少了对人工编写训练问题的依赖。我们在此基础上扩展了 Search Self-Play (SSP),这是一种代表性的“提议者-求解者”(Proposer and Solver)框架,其中问题通过多步搜索和推理来生成和回答。然而在实践中,SSP 面临两个瓶颈:提议者(Proposer)从孤立的答案实体构建问题,缺乏关系上下文,导致在早期自博弈训练中产生大量无效或无法验证的问题;而求解者(Solver)仅接收二元结果奖励,丢弃了部分正确搜索轨迹中有用的信号。我们通过重用知识图谱路径作为构建衍生的中间监督信号来解决这两个瓶颈,分别用于问题构建和奖励塑造。首先,我们将问题构建建立在 LLM 引导的知识图谱子图上,为提议者提供关系上下文。其次,我们观察到构建和解决多跳问题可能涉及重叠的中间实体:用于构建问题的知识桥梁可能为回答问题提供近似的航点(waypoints)。利用这种重叠,我们引入了航点覆盖奖励(Waypoint Coverage Reward, WCR),根据不正确求解轨迹对构建路径上实体的覆盖程度给予分级部分信用,同时保留对正确答案的全额奖励。在七个问答基准和九种模型配置中,我们的方法在所有配置中均提高了相对于标准 SSP 的平均得分,在多跳问答任务上取得了显著增益。这些结果表明,知识图谱路径可以作为轻量级的中间监督信号被重用,提供关系指导和过程反馈,而无需额外的任务特定人工标注或手动标注的过程步骤。

## 1 引言
自演化搜索代理旨在通过生成和解决自身的训练任务来提高搜索和推理能力,从而减少对人工编写监督信号的依赖。这一方向建立在智能体搜索(agentic search)的最新进展之上,其中语言模型在强化学习循环中迭代地规划查询、检索文档并对结果进行推理 (Jin et al., 2025; Song et al., 2025; Li et al., 2025; Zheng et al., 2025)。尽管此类智能体为多步搜索和推理提供了自然的基座,但训练这些行为通常仍然依赖于人工策划的问答对或其他外部监督。自博弈(Self-play)通过让智能体生成并解决自身的训练任务,提供了一种减少这种依赖的方法。一个代表性的框架是 Search Self-Play (SSP) (Liu et al., 2025),其中提议者生成问题,求解者通过多步搜索和推理回答问题,两者在闭环中共同演化。
尽管前景广阔,SSP 在其自博弈循环中面临两个瓶颈。首先,提议者从孤立的答案实体生成问题,这严重限制了早期训练阶段自博弈数据的质量;在我们的复现中,只有 8.3% 的早期阶段问题通过了 SSP 过滤管道中使用的基于 RAG 的问题有效性验证器,该验证器检查问题是否格式良好且可回答。其次,求解者仅接收二元结果奖励,因此即使轨迹检索到了有用的中间证据但在最后一步失败,也可能获得零奖励,浪费了信息丰富的 rollout 并限制了样本效率。
我们能否在不增加任务特定人工标注或手动标注过程步骤的情况下,缓解自博弈循环中的这两个瓶颈?我们提出重用知识图谱路径作为构建衍生的中间监督:同一条路径既为提议端的问题构建提供关系上下文,也为求解端的奖励塑造定义近似航点。我们的核心见解是,用于*构建*多跳问题的路径上的中间实体,可以为求解者在回答该问题时可能*遇到*的实体提供有用的代理。例如,从路径 `Einstein → ETH Zurich → Zurich → Switzerland → Bern` 构建的问题将 Einstein、ETH Zurich、Zurich 和 Switzerland 视为近似航点;接近正确答案 Bern 的求解者很可能在过程中遇到其中一些实体。因此,同一条知识图谱路径可以服务于循环的双方:其关系结构为提议者制定连贯问题提供上下文,而其中间节点则为不正确求解轨迹分配部分信用提供近似航点。我们将这一原则称为*构建衍生的中间监督*(construction-derived intermediate supervision):即从用于构建每个自博弈任务的结构化路径中衍生的监督信号。
我们通过开放知识图谱以两种互补的方式实例化这一原则。在提议端,LLM 引导的子图提取(一次性离线步骤,无需任务特定标签)用扎根于答案的关系上下文替换了从孤立实体的提示。在求解端,相同的构建路径定义了航点覆盖奖励(WCR),给每条不正确轨迹部分信用,比例于其对知识图谱路径上中间实体的覆盖度。由于航点信号是近似而非规定性的,我们非对称地应用它:不正确轨迹获得部分信用,而正确答案无论路径如何始终获得全额奖励。
我们在七个 QA 基准和九种模型配置上进行评估,观察到所有配置中相对于标准 SSP 的平均得分均有提升。对于一个代表性的较弱初始化,在 Qwen2.5-7B-Base 上,我们的方法在所有七个基准上将平均得分从 44.9 提高到 49.4,多跳 QA 平均得分从 34.2 提高到 41.5。图 1(a) 进一步表明提议者也通过自博弈循环得到改善:从相同的基础检查点开始在由每个提议者生成的 QA 对上重新训练求解者,我们的提议者比 SSP 产生更高的下游准确率,表明生成了更有用的训练数据(协议见附录 C.3)。这些结果表明,将源自任务构建的结构信号引入自博弈可以使提议者和求解者都受益,从而进一步提高整体系统的能力。

## 2 相关工作
##### 无需人工监督的训练搜索代理
多步搜索代理扩展了检索增强生成 (RAG) (Lewis et al., 2020),在强化学习循环中迭代地规划查询、检索文档并对结果进行推理 (Jin et al., 2025; Song et al., 2025; Zheng et al., 2025; Dong et al., 2025; Sun et al., 2025)。训练通常依赖于人工策划的问答对。自博弈通过让提议者生成问题并让求解者回答问题来放宽这一要求,从而使每个角色为另一方提供信号 (Chen et al., 2024; Cheng et al., 2024; Chen et al., 2025)。Search Self-Play (SSP) (Liu et al., 2025) 为检索增强代理实例化了这一思想,后续工作沿几个轴扩展了这一范式 (Yue et al., 2026; Zhang et al., 2025; Xu et al., 2025a; Huang et al., 2025; Zhao et al., 2025a)。然而,在这些框架中,任务构建和奖励设计被视为独立的问题,留下了潜在的协同效应未被利用。
##### 搜索代理训练的更密集反馈
过程奖励模型 (Process Reward Models) (Lightman et al., 2025; Wang et al., 2024) 通过对单个步骤评分来解决数学推理中的奖励稀疏性问题,但需要步骤级标签或单独训练的验证器。对于搜索代理,最近的工作从代理自身的检索过程中派生出更密集的反馈。IGPO (Wang et al., 2025) 根据信息增益对每个检索步骤进行评分,Search-P1 (Xia et al., 2026) 沿检索路径塑造奖励。互补的努力通过跨轨迹长度的分层优势 (stratified advantages) (Zhu et al., 2025) 提高训练稳定性,或鼓励更紧密的证据接地 (Xu et al., 2025b)。Zhao et al. (2025c) 将来自任务构建的合成数据重新用于细粒度监督。尽管如此,上述所有方法都需要额外处理来产生奖励信号,而不是直接重用原始构建结构。
##### 知识图谱作为问题构建支架
知识图谱已被用于通过采样关系路径并对其进行言语化来构建多跳 QA 数据集 (Talmor and Berant, 2018; Ho et al., 2020)。最近的工作通过质量感知的 KBQG (Zhao et al., 2025b)、在线 KG/LLM 管道用于后续问题 (Liu et al., 2025a) 和基于路径的少样本检索 (Liu et al., 2025b) 更紧密地将图结构与 LLM 集成。在所有情况下,构建路径在问题合成期间被消耗并随后丢弃。我们的工作保留同一条路径并将其重用作中间监督的来源:其中间实体作为求解者部分信用的航点,使得任务构建和奖励计算共享单一工件,而无需额外的任务特定人工标注或手动标注的过程步骤。
## 3 方法
图 2 展示了我们的框架。我们通过重用问题构建期间创建的知识图谱工件,在 SSP 自博弈循环中实例化构建衍生的中间监督。如第 3.2 节所述,提议者接收 LLM 引导的知识图谱子图作为问题构建的关系上下文。如第 3.3 节所述,求解者使用相应构建路径上的中间实体作为部分信用的航点。
### 3.1 预备知识
我们建立在 Search Self-Play (SSP) (Liu et al., 2025) 之上,它在闭环中共同训练提议者和求解者。遵循 SSP,它们是角色条件策略 $\pi_{\theta_p}$ 和 $\pi_{\theta_s}$;它们共享相同的语言模型但使用不同的角色提示。给定种子答案 $a^*$,标准 SSP 提议者通过搜索和推理轨迹 $\tau_p \sim \pi_{\theta_p}(\cdot | a^*)$ 生成问题 $q$。生成的问题首先通过基于规则的检查和基于 RAG 的验证器进行过滤,以确保其相对于 $a^*$ 格式良好且可回答;只有经过验证的问题才用于求解者的 rollout 和提议者的更新。对于每个验证过的问题 $q$,求解者采样 $G$ 条轨迹 $\{\tau_s^{(i)}\}_{i=1}^G$。令 $c_i = \mathbb{I}(\text{Correct}(q, \hat{a}^{(i)}, a^*))$ 表示第 $i$ 个求解者答案是否正确。在标准 SSP 中,求解者接收二元结果奖励:
$$ R_s^{\text{SSP}}(\tau_s^{(i)}) = c_i. \quad (1) $$
提议者从同一组求解者 rollout 中接收问题级奖励:
$$ R_p^{\text{SSP}}(\tau_p) = 1 - \frac{1}{G}\sum_{i=1}^G c_i. \quad (2) $$
因此,提议者因验证过的、对当前求解者具有挑战性的问题而获得奖励;无效或无法验证的问题通过过滤被移除。求解者使用 GRPO (Shao et al., 2024) 进行优化,该算法计算跨 rollout 的组相对优势,而提议者使用带有公式 (2) 中奖励的 REINFORCE。给定标准 SSP 中每次 rollout 的求解者奖励 $r_i = R_s^{\text{SSP}}(\tau_s^{(i)})$,我们使用归一化的组相对优势:
$$ A_i = \frac{r_i - \bar{r}}{\sigma_r + \varepsilon}, \quad \bar{r} = \frac{1}{G}\sum_{i=1}^G r_i, \quad (3) $$
其中 $\sigma_r$ 是组内标准差。完整的优化目标见附录 A。
### 3.2 LLM 引导的子图提取
为了给提议者提供结构化的关系上下文,我们从开放知识图谱 $\mathcal{G}=(\mathcal{V}, \mathcal{E})$ 中围绕每个种子实体 $v_0$ 提取局部子图 $\mathcal{G}_{\text{sub}}=(\mathcal{V}_{\text{sub}}, \mathcal{E}_{\text{sub}})$。每个子图由一条*目标路径*(target path)和少量*干扰分支*(distractor branches)组成。目标路径通过 LLM 引导的迭代扩展构建:从 $v_0$ 开始,在每一步中,LLM 选择最能连贯地继续路径的出边(即形成自然的事实关系链),如果没有剩余的有信息量的边则停止。这产生了一条 $K$ 跳的目标路径 $\tau_{\text{target}} = (v_0, r_1, v_1, \ldots, r_K, v_K)$,其终端节点 $v_K$ 作为答案实体,其中间节点 $v_0, \ldots, v_{K-1}$ 随后作为 WCR 的近似航点(见第 3.3 节)。令 $a^* = d(v_K)$ 表示终端实体的规范标题。
与仅以种子答案为条件的标准 SSP 提议者不同,我们的提议者额外接收知识图谱子图作为...相似文章
SPARK:基于知识图谱的不对称奖励自博弈
本文介绍了 SPARK,这是一种自博弈强化学习框架,利用从科学文献中衍生出的知识图谱来提升视觉-语言模型的关系推理能力。
@dair_ai:距离能自我生成世界知识的智能体还有多远?该研究提出一种基于结果的奖励,用于量化……
一篇新论文提出了一种基于结果的奖励机制,可量化智能体自生成的世界知识对任务成功率的提升,使其在推理阶段无需外部指导即可持续改进。
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,
SAVOIR:基于Shapley值奖励归因的社交技巧学习框架
SAVOIR框架将合作博弈论与Shapley值应用于语言智能体训练,显著提升其社交智能,在SOTOPIA基准上刷新SOTA,并达到GPT-4o水平。
通过过程监督改进数学推理
OpenAI 展示了过程监督——对中间推理步骤而非仅对最终答案进行奖励——如何改进数学推理,同时降低对齐成本。这种方法在不牺牲模型性能的前提下,产生更易解释、更符合人类价值观的推理过程。