PolitNuggets:代理式长尾政治事实发现基准评测

arXiv cs.AI 论文

摘要

PolitNuggets是一个多语言基准,用于评估大型推理模型在代理框架中发现和综合长尾政治事实的能力,通过为400位全球精英构建传记。该基准引入了如FactNet等评估协议,并揭示了当前系统在细粒度细节和效率方面存在困难。

arXiv:2605.14002v1 公告类型:新 摘要:嵌入在代理框架中的大型推理模型(LRMs)已将信息检索从静态的长上下文问答转变为开放式探索。然而,实际应用要求模型从分散来源中发现和综合“长尾”事实,这一能力仍未得到充分评估。我们提出PolitNuggets,一个多语言基准,通过为400位全球精英构建政治传记来评估代理式信息综合,涵盖超过10000个政治事实。我们使用优化的多代理系统标准化评估,并提出FactNet,一种基于证据的条件协议,对发现、细粒度准确性和效率进行评分。在各种模型和设置中,我们发现当前系统通常在细粒度细节上存在困难,并且效率差异很大。最后,利用基准诊断,我们将代理性能与底层模型能力相关联,强调了短上下文提取、多语言鲁棒性和可靠工具使用的重要性。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:18

# PolitNuggets:基于智能体的长尾政治事实发现基准测试  
来源:https://arxiv.org/html/2605.14002  

###### 摘要  
大型推理模型(LRMs)嵌入在智能体框架中,已将信息检索从静态的长上下文问答转变为开放式探索。然而,实际应用要求模型从分散的来源中发现并综合“长尾”事实,这一能力仍未得到充分评估。我们推出了**PolitNuggets**,这是一个多语言基准测试,通过为400位全球精英构建政治传记来评估智能体信息合成能力,涵盖超过10,000个政治事实。我们使用优化的监督者-搜索者多智能体系统标准化评估,并提出了**FactNet**,一种证据条件协议,用于评分发现能力、细粒度准确性和效率。在不同模型和设置下,我们发现当前系统在细粒度细节上常常表现不佳,且效率差异显著。最后,利用基准诊断,我们将智能体性能与底层模型能力关联,强调了短上下文提取、多语言鲁棒性和可靠工具使用的重要性。  

PolitNuggets:基于智能体的长尾政治事实发现基准测试  
Yifei Zhu  
香港大学  
[email protected]  

## 1 引言  
在给定上下文中推理和综合信息是现代大型推理模型(LRMs)的核心能力。关键框架可称为“上下文*内*推理”(Reasoning *in* Context),其中模型被动地接收有限的证据集,并必须从中提取或综合答案(Lewis 等人,2020;Guu 等人,2020)。上下文窗口的快速增长使得在长文档任务上表现出色(Shaham 等人,2023;An 等人,2024;Zhang 等人,2024;Bai 等人,2025;Vodrahalli 等人,2024;Yang 等人,2025b;Yen 等人,2025)。然而,一种新范式正在兴起。通过将 LRMs 集成到配备检索工具的智能体框架中,模型现在可以主动探索、筛选和构建自己的上下文,来源包括网页和代码库等开放性资源(Nakano 等人,2021;Schick 等人,2023;Zhou 等人,2024)。这解锁了一个不同层次的复杂性:**上下文*间*推理**(Reasoning *through* Context)。与被动上下文设置不同,智能体必须导航一个可能无界的信息空间,依次决定*阅读什么*、*何时停止*以及*如何将碎片化的证据综合成一个整体*(Wei 等人,2025)。  

参见标题  
图 1:一个示例传记(Erik Solheim)的智能体性能热图,展示了“头部”与“长尾”综合之间的差距。  

虽然像 OpenAI Deep Research(OpenAI,2025b)和 Perplexity Deep Research(Perplexity AI,2025)这样的生产系统展示了这种智能体范式的潜力,但在纵向综合需求下的“上下文间推理”仍然缺乏严格的基准测试。许多现有的智能体评估侧重于短期交互或孤立的事实检索(Yao 等人,2022;Mialon 等人,2024;Wei 等人,2025),因此低估了从分散、不连贯且有时相互矛盾的来源中重构连贯叙事的专业工作流程。此外,很少有研究将模型“上下文间推理”能力与“上下文内推理”能力联系起来。为填补这一空白,我们推出了 PolitNuggets,一个基于高影响力且现实任务(构建政治传记)的基准测试。维基百科虽然是人类协作策展的胜利,但存在系统性的覆盖缺口——尤其是对于非美国官员——并且往往缺乏专业领域(如学术研究或政治咨询)所需的细粒度精度。PolitNuggets 通过从开放网络中挖掘长尾传记“金块”来测试模型的“上下文间推理”能力。这种评估需要长期推理、多语言理解和可靠的工具使用。我们的基准测试还描述了一个静态语料库,用于评估模型的“上下文内推理”能力。  

我们在智能体框架中对模型进行的评估表明,尽管智能体保持了高精确率,但在开放式设置中始终在召回率上挣扎。我们还观察到非美国实体性能显著下降(在某些设置下 F1 相对下降高达约 40%),突显出明显的国际证据差距,并表明多语言鲁棒性是实际使用的先决条件。我们还建立了“上下文间推理”能力与“上下文内推理”能力之间的联系。有趣的是,评估结果揭示了一个**长上下文悖论**:强大的长上下文阅读能力(上下文内推理)并不能可靠地预测端到端的智能体性能(上下文间推理);相反,成功的关键在于短上下文阅读精度、可靠的工具使用和多语言理解。  

### 1.1 遍历潜在事实网络  
我们将政治传记重构视为遍历一个潜在事实网络,而非单次检索。设目标传记导出一个有向图 G=(V,E),其中节点 V 是原子化的“政治金块”(例如,“*2012–2015 年担任国防部长*”),边 E 是隐式的时间/因果链接,表现为非结构化文本(例如,“*2015 年辞职后,她加入了世界银行*”)。智能体从种子(实体名称和最小元数据)开始,必须通过沿着文档中发现的隐式边展开来恢复 V 的相关子集。这引出了一个关于正确性、覆盖率和成本的优化三难问题。智能体必须保持高精确率(避免无支持的事件)、高覆盖率(长尾中缺失事件的高召回率)和低成本(搜索步骤/令牌消耗)。这一框架解释了为什么简单的 RAG 不够用:缺失的长尾节点可能弱连接,需要多跳查询重构和证据积累。PolitNuggets 评估智能体是否能在保持策略性遍历效率的同时,近似完整的潜在事实网络。策略性遍历在显著节点之间跳跃(成本低,但若推理失败则容易遗漏弱连接阶段)。  

参见标题  
图 2:各国检索证据的语言构成。柱状图显示检索到的令牌中英语与非英语的比例;右侧标签显示我们基准测试中每个国家评估的案例数量。  

## 2 基准测试与任务  
PolitNuggets 基准测试评估智能体构建准确、时间解析的职业生涯历史的能力,涉及 400 位来自全球政府目录的政治精英。  

### 2.1 现实中的多语言证据  
重构政治生涯所需的证据本质上是多语言的。遍历全球传记不仅是一个搜索问题:智能体必须通过多语言上下文进行推理,决定下一步阅读什么、如何重构查询以及何时某个主张已得到充分支持。为了刻画智能体必须消费的文档的语言构成,我们计算了(每个国家)检索到的证据令牌中英语与非英语的占比,基于智能体实验期间收集的完整页面和段落集合(图 2)。  

我们的基准测试实例取自 WhoGov 数据集,采用美国与非美国采样设计。我们从 WhoGov(提供 1966 至 2023 年全球超过 58,000 位内阁成员的基本元数据)中随机抽取 200 位非美国内阁政治家,并随机抽取 200 位美国立法者及参议员。经过预处理和过滤(例如 ID 匹配)后,得到图 2 中反映的 400 个实体评估集。  

### 2.2 评估层次:事件级 vs. 属性级  
为了区分智能体*发现*相关证据的能力与*提取细粒度细节*的能力,我们按照标准槽填充术语在两个粒度级别上计算 F1 值。  

1. **事件级 F1(发现)**:衡量智能体是否正确识别传记事件的存在。如果预测的职位和组织与真实情况匹配,且年份(开始/结束)正确,则为真阳性。这主要测试发现能力(智能体是否找到了正确的金块?)。  
2. **属性级 F1(粒度)**:衡量智能体能否填充事件的细粒度属性(槽填充)。仅当事件级标准满足,且开始月份、结束月份(1 个月容差内)以及确切官方头衔均正确时,预测才匹配。这主要测试阅读理解能力和模式合规性(智能体是否正确读取了细节?)。  

上述的槽结构(职位/组织/日期/头衔)适用于职业和政党事件;其他事件类型使用特定类型的键字段(例如亲属的关系和姓名,教育的机构和学位),匹配标准相应调整。跨语言等价性(例如挪威语头衔 vs. 英语真实值)委托给证据条件的 LLM 评判器,而非确定性字符串归一化。  

### 2.3 实验设计与条件  
**模型选择。** 为了评估当前智能体信息合成的前沿水平,我们选择了同时满足 PolitNuggets 所需三个约束的模型:(i) 上下文内推理(从静态上下文窗口进行强合成),(ii) 上下文间推理(鲁棒的工具使用和多轮规划),以及 (iii) 经济性/效率(支持数百个实体规模的评估)。作为实际代理,我们优先考虑在 OpenAI 的多轮上下文推理(MRCR)基准测试中得分较高(适用于长上下文推理)以及在伯克利函数调用排行榜(BFCL v3)上表现良好(适用于工具使用可靠性)的模型,同时倾向于“Flash/Fast”变体或高效的开权重模型,而非代价高昂的前沿产品。这产生了我们的评估集:Grok-4-Fast(xAI,2025),Gemini-2.5-Flash(Comanici 等人,2025),以及 Qwen-3(80B/225B)(Yang 等人,2025a)。  

**任务设计。** 为了区分*检索*能力与*发现*能力,我们在两种上下文条件下评估模型:**有维基(增强)**,智能体初始化时包含目标的现有维基百科文本,必须验证主张并填补缺失空白;**无维基(重构)**,智能体仅从实体名称开始,必须从开放网络来源(新闻档案、政府公报)在冷启动下重构时间线。  

## 3 智能体系统  
### 3.1 问题形式化  
设实体 e 有一个(潜在的)传记,表示为一组带时间戳的事件 G_e = {v_1, …, v_n},其中每个 v_i = (r_i, o_i, t_i) 表示一个职位 r_i、组织 o_i 和时间区间 t_i(例如开始/结束年份或月份)。设 W_e ⊆ G_e 为实体维基百科页面覆盖的子集(若存在),P_e 为智能体与开放网络交互后预测的事件集。智能体在策略 π(q_t | h_t) 下执行一系列搜索查询 q_{1:T},其中 h_t 是交互历史(检索到的片段、中间笔记和部分时间线)。每个查询产生成本 c(q_t)(例如搜索步骤和/或令牌消耗),并有预算约束 ∑_{t=1}^T c(q_t) ≤ C。目标是最大化缺失传记事件的覆盖率——即对 G_e \ W_e 的高召回率——同时保持在预算内:  
max_π E[召回率(P_e, G_e \ W_e)]  s.t. ∑_{t=1}^T c(q_t) ≤ C.  

### 3.2 架构细节  
我们实现了一个标准化的监督者-搜索者架构,带有清晰的工具接口,以支持长期交互同时保持操作上的边界(图 3)。  

1. **监督者**:通过运行中的搜索摘要和待办列表维护全局状态。它将传记任务分解为具体的搜索指令给搜索者,并决定何时终止整个运行(例如,当边际收益减少或达到步骤预算时)。  
2. **搜索者**:对非结构化网络资源执行搜索和浏览/检索操作,并向监督者返回有针对性的观察结果。除了报告观察结果外,搜索者还可以将相关块(带有来源的证据片段)持久化到档案中。保留相关记录有助于详细沟通。  

最后,一个专门的编码器智能体将收集到的证据映射到评估所需的严格 JSON 模式中。在最终阶段,我们向编码器提供监督者的报告(摘要 + 已解决的待办状态)以及存档的相关块:报告提供全局结构和已解决的歧义,而原始证据提供属性填充所需的细粒度细节。一项消融研究表明,添加基于档案的证据持久化带来了实质性增益(相当于移除档案会导致事件级性能下降 ΔF1 ≈ -0.05),支持记忆作为核心设计选择(附录 A.1.1)。  

##### 架构 vs. DeepResearch。  
经验上,我们的智能体架构产生了一个面向召回率的操作点:我们系统中表现最好的设置(Grok-4-Fast)在有维基条件下实现了比 Gemini DeepResearch(由 Gemini 2.5 Pro 驱动)更高的事件级召回率(美国:0.703 vs. 0.678;非美国:0.620 vs. 0.577),而 Gemini DeepResearch 更注重精确率(事件精确率:美国 0.912 vs. 0.890;非美国 0.892 vs. 0.872;附录表 4)。  

参见标题  
图 3:PolitNuggets 框架。  
(顶部)智能体系统:监督者 + 搜索者(+ 档案)生成智能体传记和证据语料库(档案 + 检索到的页面)。  
(中部)长上下文 LRM 基线:基础 LRM 使用这些语料库生成 LRM 传记(来自档案的短上下文;来自原始页面的长上下文)。  
(底部)FactNet:通过过滤维基百科覆盖的内容,使用动态新颖性真实值评估传记。

相似文章

基于LLM的操纵性政治叙事检测

Hugging Face Daily Papers

一种结合基于提示的过滤和无监督聚类的计算框架,用于从社交媒体帖子中识别操纵性政治叙事聚类,无需预定义类别。

FACTS Grounding:评估大语言模型事实性的新基准

Google DeepMind Blog

DeepMind推出FACTS Grounding,这是一个包含1,719个示例的全面基准测试,用于评估大语言模型在源材料中的事实依据能力以及避免幻觉的准确性。该基准包括一个公开数据集和一个在线Kaggle排行榜,用于追踪LLM在事实准确性和事实依据任务上的表现。