ToE:一种分层可解释的声明验证框架,具有动态多源证据检索与聚合
摘要
本文介绍了Tree of Evidence (ToE),一种利用强化学习动态检索和聚合多源证据的分层可解释声明验证框架。实验表明,与基线相比,性能提升4至24个百分点,尤其是在面对生成引擎优化(GEO)的对抗性投毒输入时。
arXiv:2606.27736v1 Announce Type: new
摘要:虚假新闻的快速传播对信息生态系统构成了日益严重的威胁,尤其是在生成引擎优化(GEO)投毒下,AI生成的错误信息使得对抗性构造的内容能够被检索系统系统地呈现,从而污染大语言模型的推理。在本文中,我们提出Tree of Evidence (ToE),一种用于自动化事实核查的分层证据推理框架,将每个声明建模为动态扩展的论点树。ToE集成了强化学习驱动的多源检索代理、证据评估代理和论点树聚合算法,通过可解释的证据链迭代地分解、检索和验证声明。我们进一步提供了检索过程的理论分析,推导出一个形式化误差界,保证学习到的策略收敛到信息论最优策略的邻域。在多个数据集和骨干大语言模型上的实验表明,ToE相对于竞争基线实现了4到24个百分点的改进,尤其是在对抗性投毒输入上表现出显著优势。
查看缓存全文
缓存时间: 2026/06/29 05:27
# ToE: 一种分层可解释的声明验证框架,具备动态多源证据检索与聚合能力
来源:https://arxiv.org/html/2606.27736
Zhaoqi Wang¹, Zijian Zhang¹, Kun Zheng¹, Zhen Li¹, Xin Li¹, Chunlei Li², Jiamou Liu³
###### 摘要
内容警告:本文包含的虚假信息示例仅用于研究目的。虚假新闻的快速传播对信息生态系统构成了日益严重的威胁,尤其是在生成式引擎优化(GEO)投毒下,AI生成的虚假信息使得对抗性构造的内容能够被检索系统系统性地置顶,从而污染大语言模型的推理过程。本文提出**证据树(ToE)**,一种用于自动事实核查的分层证据推理框架,它将每条声明建模为一棵动态扩展的论证树。ToE集成了强化学习驱动的多源检索智能体、证据评估智能体以及论证树聚合算法,通过可解释的证据链迭代地对声明进行分解、检索和验证。我们进一步对检索过程进行了理论分析,推导出一个形式化的误差界,保证学习到的策略收敛到信息论最优策略的邻域。跨多个数据集和骨干大语言模型的实验表明,ToE相比竞争基线实现了4到24个百分点的提升,尤其在对抗性投毒输入上增益更为显著。
## I 引言
大语言模型(LLM),例如DeepSeek系列[9](https://arxiv.org/html/2606.27736#bib.bib2)和GPT系列[1](https://arxiv.org/html/2606.27736#bib.bib1),在广泛任务中展现了令人印象深刻的能力。然而,由于依赖静态训练数据,LLM无法获取实时信息,因此容易产生幻觉。为解决这一局限,已有两条主要研究方向被提出。检索增强生成(RAG)构建外部知识索引,并在推理时检索相关文档,为模型提供最新上下文[7](https://arxiv.org/html/2606.27736#bib.bib9)。另一方面,工具调用[15](https://arxiv.org/html/2606.27736#bib.bib7)使LLM能够在生成过程中动态调用外部工具(如搜索引擎),从而将响应基于实时检索的信息。这两种方法都在一定程度上缓解了幻觉问题。然而,引入第三方信息也带来了新的风险。AI生成或人为捏造的虚假信息可能导致LLM得出错误结论[21](https://arxiv.org/html/2606.27736#bib.bib46), [23](https://arxiv.org/html/2606.27736#bib.bib45), [20](https://arxiv.org/html/2606.27736#bib.bib48)。这一风险可能因GEO而进一步加剧,GEO是一种通过结构化内容使其更易被检索算法(如基于嵌入的排序[2](https://arxiv.org/html/2606.27736#bib.bib8))发现的技术。与人工撰写的真实内容相比,通过GEO优化的对抗性伪造内容可以在检索结果中被系统地置顶,从而更有可能被LLM消费。例如,如图1所示,当用户询问“谁是OpenAI的CEO?”时,攻击者可以注入一份捏造的文档,声称Tim Cook已加入OpenAI担任CEO,一旦该文档与合法来源并列展示,就会污染检索到的上下文,导致LLM给出一个自信但错误的答案。

为打击虚假信息的传播,研究人员提出了多种检测方法。早期工作依赖于基于深度学习的方法[22](https://arxiv.org/html/2606.27736#bib.bib49),但这些方法存在泛化性有限的缺陷,因为在线信息在主题、风格和平台上的固有多样性使得在一个分布上训练的模型很难迁移到来自另一分布的未见数据[10](https://arxiv.org/html/2606.27736#bib.bib51)。最近,基于LLM的假新闻检测方法被提出[11](https://arxiv.org/html/2606.27736#bib.bib50), [10](https://arxiv.org/html/2606.27736#bib.bib51), [8](https://arxiv.org/html/2606.27736#bib.bib53), [13](https://arxiv.org/html/2606.27736#bib.bib52),它们利用LLM的推理能力分析输入内容并识别潜在的虚假信息。虽然这些方法在科学或知识密集型声明上取得了有希望的结果,但在处理时效性强的新闻时表现不佳,尤其是在面对AI生成的虚假信息时,因为捏造的内容流利、连贯,且在没有实时外部知识的情况下难以与真实报道区分。
为解决这一挑战,我们提出ToE,一种用于自动事实核查的分层证据推理框架。ToE将声明建模为动态扩展的论证树,并通过三个核心组件进行验证:强化学习驱动的多源检索智能体,根据待查声明的特征跨平台收集证据;证据评估智能体,基于收集到的证据对声明的真实性和可靠性进行评分;以及论证树聚合智能体,将声明按谁、什么、何时、何地、为什么、如何等维度分解为子声明,在当前证据不足以做出可靠判断时扩展子树进行更深入的验证。节点级分数通过树自底向上传播,当根节点达到收敛或决策阈值时过程终止,输出最终的真实性分数以及完整的推理树。
我们总结主要贡献如下:
- • 我们提出ToE,一种用于自动事实核查的分层证据推理框架。据我们所知,这是第一个基于动态证据收集与评估的算法,为每个判决生成一个可解释的论证树作为可解释的证据链。
- • 我们对检索框架进行了理论分析,将证据收集建模为部分可观测马尔可夫决策过程,并推导出一个形式化的误差界,证明学习到的策略收敛到信息论最优策略的邻域。
- • 我们构建了一个对抗性数据集AdvFact,用于评估在GEO投毒下的鲁棒性,并在多个数据集和LLM上进行了实验,包括对检索动作空间的消融研究,证明了所提方法的有效性和泛化能力。
## II 相关工作

随着人工智能的快速发展,基于LLM的智能体通过调用外部搜索工具检索相关信息作为补充上下文,来解决知识过时的问题[7](https://arxiv.org/html/2606.27736#bib.bib9), [15](https://arxiv.org/html/2606.27736#bib.bib7)。然而,这种对第三方来源的依赖引入了新的脆弱性。先前的工作已证明,注入检索结果中的AI生成虚假信息可以误导LLM得出错误结论,在医疗和金融等领域可能造成严重后果[23](https://arxiv.org/html/2606.27736#bib.bib45), [4](https://arxiv.org/html/2606.27736#bib.bib47)。虽然已经提出了基于深度学习的检测方法来识别此类内容[22](https://arxiv.org/html/2606.27736#bib.bib49),但它们依赖于表面级别的风格特征,并且无法泛化到仅在与真实内容细微的事实细节上存在差异的AI生成虚假信息。例如,像“Tim Cook是苹果公司CEO”这样的声明可以被篡改为“Tim Cook昨天成为OpenAI的CEO”,这个陈述在风格上与真实新闻无法区分,但在事实上是错误的。最近的工作利用LLM的推理能力来帮助验证信息的可靠性。F3框架通过提示工程技术(如零样本思维链推理和演绎生成)引导LLM进行逐步逻辑分析和证据一致性评估,为输入声明产生真实性判断[11](https://arxiv.org/html/2606.27736#bib.bib50)。TELLER将假新闻检测分解为一组结构化的评估问题,指导LLM从事实准确性、上下文一致性和来源可信度等维度分析新闻,然后通过可解释的逻辑规则聚合维度级分数,最终得出判决[10](https://arxiv.org/html/2606.27736#bib.bib51)。然而,这些方法主要依赖LLM分析声明内容提供的信息,在应对AI生成的虚假信息时表现有限。STEEL采用多轮检索增强策略,LLM评估初始检索结果的置信度,并在当前证据不足时自动生成改进的查询,迭代收集更多网络证据,从而减轻对静态知识库的依赖[8](https://arxiv.org/html/2606.27736#bib.bib53)。AdSent将输入声明重写为情感中性变体,迫使真实性分类器仅依赖事实内容,提高了对情感操纵型虚假信息的鲁棒性[17](https://arxiv.org/html/2606.27736#bib.bib54)。然而,它对基于捏造事实的虚假信息提供的防御有限。
## III 方法
为应对虚假和误导性信息的潜在影响,我们提出ToE,一种用于自动事实核查的分层证据推理框架。ToE将声明的验证建模为一棵动态增长的论证树。每一步,它从异质来源收集和评估证据——包括Wikipedia、Arxiv、事实核查平台、搜索引擎结果和社交媒体。基于评估结果,扩展新的子树以逐步细化真实性判断。该过程最终生成一棵可解释的证据树,追溯整个推理过程。
如图2所示,系统将待查声明作为根节点初始化论证树,并进入主迭代循环。每次迭代中,根据父节点的不确定性和节点自身的估计重要性动态计算每个待处理节点的优先级,从而优先处理对最终判断贡献最大的节点。对于每个选定节点,系统分析声明的语义特征(如类别和地理范围),并生成三种类型的搜索查询:一般背景查询、支持证据查询和反驳证据查询。这种设计确保了证据收集的全面性和客观性,减少了确认偏差。通过强化学习训练的检索智能体随后自主地在异质来源(包括Wikipedia、PolitiFact、社交媒体和通用网络)中执行搜索,并动态决定何时停止检索。收集到的内容由LLM解析,提取与声明直接相关的证据片段,每个片段标注有立场和来源可信度等属性,形成结构化证据集。基于这些证据,系统计算当前节点的两个核心分数:真实性(衡量声明为真的概率)和可靠性(衡量当前证据对该判断的支持强度)。
每个节点评估后,分数通过聚合网络自底向上传播,不断更新根节点的整体判断。如果某个节点的可靠性不足,表明现有证据尚不支持可靠的判决,则系统调用LLM沿时间、地点、人物、事件、原因和信息来源等多个维度将声明分解为更细粒度、更易验证的子声明,并将其作为新的子节点加入,以便进一步处理。同时,那些已达到高可靠性且判决足够明确的子树会被剪枝,以避免冗余计算。迭代过程持续进行,直到根节点的判断收敛、达到决策阈值或达到最大迭代次数,最终生成声明的真实性分数和一棵完整的论证树,可用于追溯和审查。
### III-A 理论基础
ToE中的验证过程可以通过两个互补的理论视角来理解:一个决策论公式化,刻画了搜索问题的结构;以及一个信息论解释,证明了驱动检索智能体的奖励信号设计的合理性。
#### POMDP形式化。
自动事实核查的核心挑战在于,声明的真实地面真实性 v* ∈ [0,1] 是一个无法直接观测的潜在变量。系统只能通过顺序搜索行动积累证据,并必须在持续的不确定性下形成判断。这种结构自然地映射到部分可观测马尔可夫决策过程(POMDP)[5](https://arxiv.org/html/2606.27736#bib.bib60),定义为元组 (S, A, O, T, R),各组成部分如下。**状态** s_t = (E_t, f_c) 是截至步骤 t 积累的证据集 E_t 与所查声明语义特征 f_c 的联合表示,其中 f_c 编码了声明类别和地理范围等属性。**动作** a_t ∈ A 从检索智能体的八选项离散动作空间中选择,涵盖异质来源类型,包括Wikipedia、arXiv、事实核查平台、社交媒体以及一个停止动作。**观测** o_t ∈ O 是执行动作 a_t 后检索到的文档集,随后由证据评估智能体处理为结构化证据对象,并标注立场和可信度属性。**转移** T(s_{t+1} | s_t, a_t) 描述了接收到新观测后证据集如何更新:E_{t+1} = E_t ∪ {o_t}。**信念状态** b_t = (v_{n,t}, r_{n,t}) 由评估网络维护,该网络将当前证据集和声明特征映射为真实性分数 v_{n,t} 和可靠性分数 r_{n,t}。关键的是,评估网络充当信念状态估计器,而非独立训练的值网络:它是一个领域驱动的模块,根据所有可用证据产生 v* 的后验估计,这使得 ToE 与标准的 Actor-Critic 架构不同,后者中值函数是与环境模型分开学习的。
#### 信息寻求目标。
驱动检索智能体的奖励信号具有天然的信息论解释。在每一步 t,智能体接收一个步骤奖励,该奖励与可靠性增益 Δr_t = r_{n,t} - r_{n,t-1} 成正比。我们将这个增益解释为潜在真实性 v* 与新观测 o_t 之间的条件互信息的近似值。更具体地,当新证据显著改变了信念(即显著提高了可靠性)时,该增益较大。通过最大化累积奖励,检索智能体被引导以收集信息量最大的证据,从而实现高度可靠的验证。相似文章
Tree-of-Experience:一种在低重复性和隐式奖励环境下用于自进化智能体的结构化经验管理方案
本文介绍了FinEvolveBench(一个用于金融情感预测的基准测试)和Tree-of-Experience(ToE,一种针对低重复性任务和隐式奖励的LLM智能体的结构化经验管理方法)。实验表明,在此类挑战性场景中,ToE优于通用经验机制。
EVE-Agent: 可验证证据的自我进化智能体
EVE-Agent 提出了一个自我进化搜索智能体框架,通过生成问题、答案和证据片段,并基于证据的边际准确性增益进行训练,确保证据可验证性。这提高了基于依据的正确性,且无需人工标注。
从片段到语义:重新思考多语言事实核查的证据粒度
本文介绍了SEEK,一个用于多语言事实核查中语义证据提取的框架,该框架从完整文章中构建连贯的证据块,并使用LoRA微调多语言大语言模型,在宏观F1分数上相比基线提升了高达20%。
TRACE:面向LLM智能体的自适应跨步证据聚合轨迹推理
TRACE是一个用于长周期LLM智能体轨迹的监控框架,它通过分诊-检查-判断(Triage-Inspect-Judge)循环来连接时间上相隔较远的动作证据,在规避性破坏检测任务上实现了高召回率和F1值。
ScientistOne:通过 Chain-of-Evidence 实现人类级自主研究
ScientistOne 引入了 Chain-of-Evidence,这是一个面向自主研究代理的可验证性框架,确保每个声明都可追溯到证据来源。该框架实现了零幻觉引用、完美的分数验证,并在 75 篇论文中达到了最高的方法-代码对齐度,同时在五个前沿研究任务上达到或超过了人类专家水平。