EVE-Agent: 可验证证据的自我进化智能体

arXiv cs.AI 2026/05/25 04:00 论文

摘要

EVE-Agent 提出了一个自我进化搜索智能体框架，通过生成问题、答案和证据片段，并基于证据的边际准确性增益进行训练，确保证据可验证性。这提高了基于依据的正确性，且无需人工标注。

arXiv:2605.22905v1 公告类型：新论文摘要：自我进化智能体不应在其无法证明的示例上进行训练。无数据的自我进化搜索智能体提供了一条可扩展的路径，使系统能够自行生成问题、回答问题，并通过自身反馈进行改进，而无需人工标注。然而，若缺乏可验证的证据，这一循环可能会奖励流畅但缺乏依据的示例，从而将自我生成的课程转化为不透明且可能不可靠的训练信号。我们认为，证据可验证性是搜索智能体实现可信自我进化的先决条件：每个生成的实例不仅应包含答案，还应包含一个可追溯到来源的片段，且该片段对答案的贡献是可衡量的。我们提出了 EVE-Agent——一种可验证证据的自我进化智能体，通过对提议者-求解者框架进行修改，将这一原则付诸实践。提议者生成一个问题、一个答案以及一个逐字的证据片段。然后，证据验证器根据提供证据时的边际准确性增益对片段进行奖励。这产生了一个训练信号，倾向于那些真正有助于回答问题的证据，而无需标准答案、人工标签或外部标注。EVE-Agent 保持主干模型、检索器、搜索工具和优化框架不变。实验表明，EVE-Agent 在基于证据的正确性方面相较于先前的自我进化搜索智能体有显著提升。由此产生的课程不仅是自我生成的，而且从结构上是可审计的：每个训练示例都包含一个可检查的源片段，解释了为何该示例值得信任。

查看原文

查看缓存全文

缓存时间: 2026/05/25 08:55

# EVE-Agent：证据可验证的自演化智能体  
来源：https://arxiv.org/html/2605.22905  
Yamato Arai  
富士通有限公司  
东京大学基础科学系  
& Yuma Ichikawa  
富士通有限公司  
理研AIP中心  

###### 摘要  

自演化智能体不应在其无法证明的样本上进行训练。无数据的自演化搜索智能体提供了一条可扩展的路径，使系统能够自行生成问题、解答问题，并基于自身反馈进行改进，而无需人工标注。然而，如果缺少可验证的证据，这一循环可能会奖励流畅但缺乏支持的样本，使自生成的课程变为一种不透明且可能不可靠的训练信号。我们认为，证据可验证性是搜索智能体实现可信自演化的前提条件：每个生成的实例不仅应包含答案，还应包含一段源自源文本的证据片段，其对答案的贡献可以被衡量。我们提出EVE-Agent，一种证据可验证的自演化智能体，通过对提议者-求解者框架进行修改来实现这一原则。提议者生成一个问题、一个答案以及一段逐字引用的证据片段。然后，一个证据验证器根据提供证据后所获得的边际准确率增益来奖励该证据片段。这产生了一种训练信号，它更青睐那些真正有助于解答问题的证据，而无需标准答案、人类标签或外部标注。EVE-Agent不改变骨干模型、检索器、搜索工具和优化框架。实验表明，与先前的自演化搜索智能体相比，EVE-Agent显著提升了基于证据的正确性。由此产生的课程不仅仅是自生成的，而且从构造上就是可审计的：每个训练样本都附带一个可检查的源文本片段，说明了它为何值得信赖。  

## 1 引言  

知识密集型问答的搜索智能体必须做的不仅仅是检索相关信息：它们还必须将答案建立在适当的证据基础上。这一要求将它们与标准的语言模型区分开来，后者可能生成流畅的回答，却无需说明为何这些回答值得信赖。在监督学习场景中，证据基础通常通过使用人工策划的、带有支持性片段标注的问答数据集来强制执行，例如HotpotQA、2WikiMultiHopQA和MuSiQue (Yang et al., 2018; Ho et al., 2020; Trivedi et al., 2022)。检索增强型和工具使用型语言模型将这种证据寻求行为付诸实践 (Lewis et al., 2020; Yao et al., 2023; Schick et al., 2023; Trivedi et al., 2023; Asai et al., 2024)，而最近的强化学习方法进一步表明，模型可以学会将搜索调用作为其推理过程的一部分 (Jin et al., 2025; Song et al., 2025)。然而，大规模构建基于证据的监督信号成本高昂、与特定语料库紧密耦合，并且在检索环境发生变化时难以更新。  

无数据的自演化提供了一种有吸引力的替代方案：模型生成自己的训练问题，尝试解决它们，并根据由此产生的反馈进行改进。这种范式在推理和代码等领域已显示出强大的潜力，因为在这些领域，自生成的任务可以通过外部验证器（包括解释器和符号检查器）进行验证 (Zhao et al., 2025; Huang et al., 2026)。它最近也被扩展到多轮搜索智能体 (Yue et al., 2026)。然而，基于搜索的问答缺乏代码或数学领域中可利用的精确验证机制。一个自生成的问题可能含糊不清、缺乏源文本支持，或者仅凭模型记忆的知识即可回答。同样，求解者可能会给出一个自信的答案，却没有提供真正支持该答案的证据。  

参照图例

图1：证据可验证的自演化搜索智能体。

现有的自演化搜索智能体（*左图*）仅使用基于求解器准确率的难度信号来奖励提议者，而不审核每个问题背后的源文本证据。EVE-Agent（*右图*）要求提议者输出一个源自源文本的证据片段，并且只有当该证据因果性地提高了求解器答案准确率时才给予奖励，该准确率通过比较无证据和有证据情况下的生成结果来衡量。这种修改仅限于奖励机制：提议者、求解器、骨干模型和搜索工具保持不变。

这一局限性暴露了现有自演化搜索智能体循环中的一个核心弱点。它们的奖励信号主要评估生成的问题作为一个难度可控的训练实例是否有用。然而，它们并未验证相应的答案是否基于一个可被检查的源文本片段。因此，缺乏支持的样本可能会进入自生成的课程并影响后续的学习。问题不仅仅在于证据可能缺失。在实践中，即使被引用的片段实际上并不能证明答案的正确性，系统也可能生成一个语法上有效的证据块。这样的样本难以审计：一旦它们被纳入课程，就变得不清楚智能体是在学习搜索和推理证据，还是仅仅在强化流畅但不可验证的行为。  

我们认为，证据可验证性应成为无数据自演化搜索智能体的核心设计原则。每个生成的训练实例都应包含一个源自源文本的证据片段，并且该片段的效用应是明确可衡量的。这一要求将证据从可选的解释重新定义为训练时可被检查、评分和重复使用的对象。这也使得生成的课程更值得信赖：每个问答对都附带一个具体的文本基础，系统不仅可以评估其答案是否正确，还可以评估其是否提供了支持答案的证据。  

为此，我们提出了EVE-Agent，这是对提议者-求解者框架的一个轻量级扩展，其核心建立在证据可验证性之上。提议者生成一个问题、一个答案以及一个从源文本中逐字引用的证据片段。然后，一个证据验证器根据提供证据后，对当前求解器答案准确率的边际提升（相对于仅凭问题回答）来奖励提议者。该信号不需要标准答案、人类标签或外部标注：它完全基于求解器、提议者输出的证据和语料库计算得出。随后，相同的证据片段被用于训练求解器，使其既能产出答案，也能产出支持性的证据。重要的是，EVE-Agent不改变骨干模型、检索器、搜索工具和策略优化框架。  

由此产生的自生成课程在设计中就是可审计的。每个训练样本都附带一个明确的源文本片段，并且只有当该片段有助于求解器解答问题时才会获得奖励。这种设计在保持无数据自演化可扩展性优势的同时，抑制了缺乏支持或纯粹基于记忆的问题。它还提供了一种检查智能体生成训练数据的实用机制：课程不再是一组不透明的问答对，而是一系列与证据关联的实例，其基础可以在事后得到验证。  

我们的实验表明，在匹配的条件下，EVE-Agent在基于证据的正确性方面显著优于先前的自演化搜索智能体方法。这些结果表明，自演化搜索智能体不仅可以训练来回答问题，还可以训练来生成证据，使其自身的训练过程变得可验证。  

## 2 背景  

#### 符号表示。  
设 D = {d₁, ..., d_{|D|}} 表示一个有限语料库，其中每个文档 d_i 表示为一个 token 序列。一个任务实例是一个三元组 (q, a, e)，包含一个问题 q、其目标答案 a 和一个证据片段 e。证据片段要求是从 D 中的源文档或从该语料库检索到的片段中复制的一段连续文本。所有智能体共享一个搜索引擎 R：给定一个文本查询，R 返回从 D 中抽取的一个有限片段列表。本文中，对数均取自然对数，而 1{·} 表示指示函数，当其参数为真时等于 1，否则为 0。对于任意模型 M 和输入 x，我们使用 M(a | x) := P_{â ∼ M(· | x)}[â = a] 来表示在给定 x 的条件下，M 生成答案字符串 a 的概率。  

#### 自演化搜索智能体循环。  
自演化搜索智能体框架包含两个策略，它们在训练轮次 t = 1, ..., T 上更新。提议者策略，记为 π_t^{pro}，从源文档中生成一个训练实例。在之前的框架中，该实例是一个问答对 (q, a)；在 EVE-Agent 中，它扩展为一个包含问题、答案和证据的三元组 (q, a, e)。求解器策略，记为 π_t^{sol}，接收一个问题，在其推理过程中可能调用共享搜索引擎 R，并输出一个答案。为方便表示，我们定义  

M_{sol, t}(· | x) := π_t^{sol}(· | x, R)      (1)  

为求解器在给定输入 x 并可访问搜索引擎时，在第 t 轮产生的答案分布。类似地，我们使用 M_{pro, t} 表示提议者产生的分布。该设置是无数据的，因为没有提供人类标注的问答对或支持性片段。唯一由人类提供的资源是语料库 D 和搜索引擎 R。  

#### 难度奖励。  
我们首先回顾先前自演化搜索智能体框架 (Yue et al., 2026) 中使用的基于难度的提议者奖励。在训练轮次 t，从语料库中均匀采样一个源文档 d ∈ D。提议者随后生成一个问答对 (q, a) ∼ π_t^{pro}(· | d, R)，并且求解器独立地回答同一个问题 n 次，得到 {âᵢ}ᵢ₌₁ⁿ ∼ M_{sol, t}(· | q)。令 k := ∑ᵢ₌₁ⁿ 1{âᵢ = a} 为求解器预测完全匹配提议者提供答案的次数。提议者获得的难度奖励为  

R_t^{DZ}(q, a; k) = 1{0 < k < n} ⋅ α + 1{k = n} ⋅ β，  

其中 α < β 是标量超参数。当求解器有时正确但并非总是正确时（0 < k < n），奖励为正（但较小）；当求解器总是正确时（k = n），奖励较大；当求解器从不正确时（k = 0），奖励为零。先前的公式还包括内插变体，但此处我们专注于二元设置，因为这构成了扩展的基础。  

#### 层次化奖励策略优化。  
提议者使用层次化奖励策略优化（HRPO）进行训练。在 HRPO 中，为每个提议者生成的问答对 (qᵢ, aᵢ) 收集一组 h = 1, ..., |H| 个奖励信号 {R₁, ..., R|H|}。令  

Iₕ := {i : |A_{i,h}| > 0} 和 N := ∑ₕ |Iₕ|。  

在第 t 轮，对于每个训练样本 i 和每个奖励头 h，我们计算一个归一化的优势值  

A_{i,h} := (R_{i,h} - μₕ) / (σₕ + δ₀)，  (5)  

其中 μₕ 和 σₕ 分别是该奖励头在所有实例上的均值和标准差，δ₀ > 0 是一个数值稳定常数。  

设 π_ref^{pro} 是一个冻结的参考提议者策略。在我们的实验中，该参考是阶段 A 开始时的提议者初始化。HRPO 更新最大化  

J_t^{HRPO} = (1/N) ∑_{h∈H} ∑_{i∈Iₕ} log π_t^{pro}(qᵢ, aᵢ | dᵢ, R) A_{i,h} - β E_d [KL(π_t^{pro}(· | d, R) ‖ π_ref^{pro}(· | d, R))]，  (6)  

其中 β > 0 控制 KL 正则化的强度。KL 散度是在给定相同源文档 d 和相同搜索引擎 R 的情况下，提议者输出的两个条件分布之间计算的。其作用是使当前提议者 π_t^{pro} 接近冻结的参考 π_ref^{pro}，从而防止策略更新过大。这个 KL 项在概念上与式 (5) 中的相对优势归一化是分开的。  

#### 组相对策略优化。  
求解器使用组相对策略优化（GRPO）(Shao et al., 2024) 进行训练。对于给定问题 q，生成策略是前一个求解器 π_{t-1}^{sol}。它对 n 个候选回答进行采样，{ŷᵢ}ᵢ₌₁ⁿ ∼ π_{t-1}^{sol}(· | q, R)。每个回答获得一个二值答案奖励 rᵢ = 1{ŷᵢ = a}，其中 a 是目标答案。令 r̄ 和 σ̂ 分别为组内 {rᵢ}ᵢ₌₁ⁿ 的经验均值和标准差。标准化优势为  

Aᵢ = (rᵢ - r̄) / (σ̂ + δ₀)，  

其中 δ₀ > 0 防止除零。  

设 π_ref^{sol} 是一个冻结的参考求解器策略。在我们的实验中，该参考是阶段 B 开始时的求解器初始化。GRPO 最大化裁剪后的代理目标  

J_t^{GRPO} = E[ (1/n) ∑ⱼ₌₁ⁿ min(ρⱼ Aⱼ, clip(ρⱼ, 1-ε, 1+ε) Aⱼ) ] - β E_q [KL(π_t^{sol}(· | q, R) ‖ π_ref^{sol}(· | q, R))],  
ρⱼ = π_t^{sol}(ŷⱼ | q, R) / π_{t-1}^{sol}(ŷⱼ | q, R)，  (7)  

其中 ε ∈ (0, 1) 是裁剪宽度，β > 0 是 KL 系数。重要性比率 ρⱼ 比较了采样回答 ŷⱼ 在当前求解器 π_t^{sol} 下的概率与在生成策略 π_{t-1}^{sol} 下的概率。相比之下，KL 项比较的是当前求解器的完整条件输出分布与冻结参考求解器 π_ref^{sol} 在相同问题 q 和搜索引擎 R 下的分布。比率控制着对采样回答的策略梯度更新，而 KL 项则正则化整个更新后的策略。  

EVE-Agent 保持此优化基础设施不变：它对提议者使用 HRPO，对求解器使用 GRPO，并且仅更改奖励设计以及可选地更改源文档选择器。  

## 3 方法  

式 (2) 的难度奖励鼓励提议者...

EVE-Agent: 可验证证据的自我进化智能体

相似文章

@rauchg: 自主智能体自我改进。让你的智能体能够检视其过去的运行，发现效率低下、错误、冗余……

EvoMaster：构建可进化大规模自主科学智能体的基础框架

自动化智能体评估的实证研究

MetaEvo: 一种用于经验驱动型智能体持续进化的元优化框架

具有随时有效证书的自演化代理

提交意见反馈