Ko-WideSearch:用于Web智能体穷举集合枚举的韩语广度搜索基准

arXiv cs.CL 论文

摘要

介绍了Ko-WideSearch,这是一个用于Web智能体的韩语广度搜索基准,在228个表格上评估穷举集合枚举能力。结果表明,智能体的项目召回率较高,但在行完成上存在困难,尤其是开放式的单元格。

arXiv:2606.27595v1 公告类型:新 摘要:Web智能体基准测试绝大多数衡量深度——即在约束链中找出一个模糊的答案——而广度,即穷举一个封闭集合并填充每个项目的属性,却很少被评估,尤其是在英语之外。构建广度基准也很困难:验证黄金集合的完整性和每个单元格的正确性比检查单个答案的成本高得多。我介绍了\textsc{Ko-WideSearch},这是一个通过自动化合成与验证流水线构建的韩语广度搜索基准。每个任务命名一个集合父实体——一个电视剧季、一个王朝、一个联赛、一个行政区域、一次选举——并要求其完整成员资格以及一个每项属性的表格,按项目F1、列F1和行F1进行评分。它涵盖190个实体的228个表格,分为16个类别和三个难度等级,由我独立设置的两个结构旋钮——表格宽度和二维复合键——设定,因此笛卡尔积成员从0%到100%跨等级递增。一个单一的归一化感知比较器同时用于黄金构建和评分,因此稳定的日期和计数列不会仅仅因为格式而被过度丢弃。在二十个Web智能体上,失败是一致的:智能体恢复了集合但没有恢复行(例如,项目F1为92.8,而行F1为53.7),随着旋钮的强化,准确率稳步下降,无论是增加搜索次数还是花费更多时间都无法缩小差距。按单元格细分,难点在于找到正确的值,而不是格式化:开放式的自由文本单元格失败最多,而具有标准答案的单元格(如日期或名称)通常正确。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:23

# 一个用于网页代理穷举集合枚举的韩语广度搜索基准 来源:https://arxiv.org/html/2606.27595 ###### 摘要 > 网页代理基准测试绝大多数衡量的是深度——在一连串约束条件背后挖掘一个晦涩的答案——而广度,即穷举枚举一个封闭集合并填充每个项目的属性,很少被评估,特别是在英语之外的语言中。广度构建起来也很困难:验证黄金标准集是完整的且每个单元格正确,其成本远高于检查单个答案。本文介绍**Ko‑WideSearch**,一个由自动化合成与验证流水线构建的韩语广度搜索基准。每个任务命名一个“集合‑父”实体——一个电视剧季、一个朝代、一个联盟、一个行政区、一个选举——并要求其完整成员资格加上每个项目的属性表,按Item‑F1、Column‑F1和Row‑F1评分。该基准涵盖190个实体上的228张表格,横跨三个难度层级中的十六个类别,由我独立调节的两个结构旋钮设定——表格宽度和二维复合键——因此跨产品成员资格从Easy层级的0%上升到Hard层级的100%。一个单一的归一化感知比较器共享于黄金标准构建和评分之间,使得稳定的日期和计数列不会仅因格式而错误地被丢弃。在二十个网页代理上,失败是一致的:代理找回集合但未能找回行(例如Item‑F1为92.8而Row‑F1为53.7),随着旋钮变硬,准确率稳步下降,更多的搜索或更多的花费都无法缩小差距。按单元格细分,困难之处在于找到正确的值,而不是格式化:开放式自由文本单元格失败最多,而具有标准答案(如日期或名称)的单元格通常正确。

## 引言

参见图注

图1:基准及其运行示例。左侧:任务跨越韩语类别(行)和三个难度层级(列);每个单元格是一个真实任务,其下方有一列条带——成员键列被着色,一个框标记列表,两个框标记跨产品网格。从左到右阅读,任务获得需要填充的列,其成员资格从列表变为网格。右侧:展示完整的Government/Hard单元格——一个我用作本文运行示例的困难集合实例:第七届和第八届地方选举中每个韩国广域市的当选首长。它的行是(省份×轮次)对(每次选举中的每个省份,17×2=34行),以及每行属性,例如每位胜选者的年龄,从结果页查找(跨来源)。展示了十六个类别中的四个。

让一个网页代理列出截至2026年6月在韩国运营的所有低成本航空公司,以及每家的母公司、成立年份、主要枢纽和当前运营的飞机数量。一个能干的代理必须同时做两件事。它必须找回完整的集合——九家航空公司,如果遗漏爱若客或凭空编造第十家则立即错误;并且它必须为每一行填充一个位于不同页面的单元格,因为当前的机队数量不会印在航空公司名称旁边。这两半都不是困难的单事实查找。难点在于答案是一整张表格,并且必须穷举且内部完整。这就是**广度**——与当今浏览代理基准衡量的方向不同。主导范式是深度:BrowseComp (?) 及其中文和韩语变体 BrowseComp‑ZH (?) 和 K‑BrowseComp (?) 将单个短答案隐藏在多个约束条件之后,代理遍历多跳或并行约束路径以找回它。WideSearch (?) 表明,即使前沿代理也会在集合值任务上失败,不是因为信息被隐藏,而是因为规模和穷举性:它们遗漏行、错误填充单元格、并丢失集合边界。换句话说,广度强调了一种深度基准从未锻炼的能力——跨许多页面保持并完成一个结构化集合。

两个空白点推动了这项工作。首先,广度搜索评估在英语之外几乎不存在:韩语代理基准很少 (?),然而浏览能力本质上受语言和文化约束——代理必须导航的韩语来源其结构、术语和搜索习惯与英语来源不同 (?;?)。其次,广度本身提出了构建问题:验证黄金标准集完整且每个属性单元格正确远难于检查一个答案,并且大规模手动完成成本高昂——原始的 WideSearch 是手工构建的,包含200张表格且注释成本高。我通过**Ko‑WideSearch**解决这两个问题,一个由自动化合成与验证流水线构建的韩语广度搜索基准。每个任务命名一个“集合‑父”实体——一个电视剧季、一个朝代、一个联盟、一个行政区、一个选举——并要求完整成员资格加上一个属性表,按Item‑F1、Column‑F1和Row‑F1评分。我组织该基准——总共228张表格——沿我独立调节的两个结构轴分为三个难度层级:表格宽度和二维复合键(图1 (https://arxiv.org/html/2606.27595#Sx1.F1))。我的贡献有四点:(1) 我介绍**Ko‑WideSearch**:228张韩语广度搜索表格——190个集合‑父实体上的4,262行黄金标准数据和14,560个属性单元格,横跨十六个类别——每张表格均来自网络并经过去污染处理。(2) 我用一个自动化合成与验证流水线构建它,使韩语广度搜索评估可扩展同时保持黄金标准可信:一个构建代理通过穷举网络搜索枚举每张黄金标准表,三个独立门控验证不可记忆性、完整性和跨来源属性验证,两个难度旋钮产生WideSearch级别的困难广度——二维成员资格从Easy的0%上升到Hard的100%,中位宽度从3列上升到7列。(3) 我发现一个天真的属性交叉检查会仅因格式而错误丢弃稳定列,并且由于同一个比较器用于模型输出评分,否则会导致代理评分误判,因此我用一个归一化感知比较器同时修复两者;另外,我基于网络实际验证了单页与跨来源的溯源标签,LLM对此的猜测准确率仅为约72%。(4) 我采用泄露感知发布方式:因为代理自身的搜索可能会浮出已发布的黄金标准并直接给出答案,我遵循GAIA (?) 和 BrowseComp (?) 的保留先例,在MIT许可下开源流水线和评分器,同时根据请求分发评估数据,将集合保持在代理搜索的表面之外,以便韩语广度搜索能够被评估和重新生长。

## 相关工作

#### 网页代理、工具使用和浏览基准。
一个浏览代理是一个语言模型,它执行动作——推理、调用工具、并阅读其发现的结果——这是由ReAct (?) 和通过工具增强模型自行学习调用API (?;?;?) 建立的循环。针对开放网络,此类代理已被研究为浏览器辅助的问答器 (?) 以及真实和模拟站点的导航器 (?;?;?;?),并通过代理套件如AgentBench (?)、GAIA (?) 和 AssistantBench (?) 进行压力测试;最近,搜索已被融入推理本身 (?)。最难的浏览基准衡量深度:BrowseComp (?) 提出人类无法快速用浏览器回答的问题,只能通过多步搜索解决,而 BrowseComp‑ZH (?) 和 K‑BrowseComp (?) 将该范式带到中文和韩语——后者强调韩语上下文接地(本地实体、半结构化的韩语页面、文化相关的线索),其构建与验证方法论我有所借鉴。这个深度谱系可追溯到多跳和开放域问答——HotpotQA (?)、TriviaQA (?)、Natural Questions (?)、2WikiMultihopQA (?) 和 MuSiQue (?)——并延伸到短答案事实性和新鲜度 (?;?;?;?)。然而,这些每一个都是每个问题评分单个答案;**Ko‑WideSearch** 评分一个封闭集合。

#### 广度、集合枚举和表格。
WideSearch (?) 将集合值枚举引入作为一个独特的代理挑战,使用基于项目、列和行的F1作为其度量,并且在黄金标准构建上具有高人类一致性;后续工作隔离了聚合和计数错误 (?)。集合值设置有其更早根源:在列表答案问答中,一个查询有许多分散在页面上的正确答案 (?),以及在查询半结构化表格中——对维基百科表格的组合问答 (?)、表格接地的事实验证 (?)、自由形式表格QA (?) 以及在表格与其链接文本之间跳跃的问题 (?)。广度增加的是,代理必须生成表格而不是读取给定的表格,从实时的网络中组合成员资格和属性——这是RAG谱系中的一个检索接地生成问题 (?;?)。我采用WideSearch的任务形状和度量,将其实例化到韩语来源,用自动化、可验证的流水线替代其手工构建,并添加两个结构难度旋钮(宽度和二维复合键)使得流水线能够达到手工原始版本的宽度和跨产品份额,在Hard层级两者均超越。据我所知,韩语来源上的广度搜索尚无先验基准。

#### 韩语和区域评估。
韩语评估已沿着静态轴成熟:KorQuAD (?) 中的阅读理解、KLUE (?) 和 KoBEST (?) 中的核心理解、KMMLU (?) 中的多任务知识、HAE‑RAE (?) 和 CLIcK (?) 中的事实和文化知识,以及 KoBBQ (?) 中的社会偏见;多语言努力如MENLO (?) 和 INCLUDE (?) 增加了区域接地知识。与此同时,快速增长的韩语和韩语能力模型已经出现——HyperCLOVA (?) 和 HyperCLOVA X (?)、EXAONE (?)、Kanana (?) 和 SOLAR (?)——我评估了一个韩语专用系列在广度搜索任务上的表现。尽管这些基准很有价值,但它们大多是静态的:它们不要求代理搜索实时的网络、维护证据状态或跨韩语页面综合信息——这正是广度搜索基准填补的空白。

参见图注

图2:**Ko‑WideSearch** 沿两个结构轴扩展 WideSearch (?)。(a) 难度:我调节的两个旋钮——表格宽度和二维复合键份额——覆盖平面。WideSearch 是一个单一的、不分层级的参考(中位6列,35%为二维),而 **Ko‑WideSearch** 覆盖一个校准的 Easy → Medium → Hard 区域(阴影),其 Hard 层级达到原始版本的宽度并超越其跨产品份额(100% vs. 35%)。(b) 来源:一个正交的、基于网络实际验证的属性——表格的属性是位于一个页面上(穷举)还是分布在多个页面上(跨来源)——从 Easy 的77%跨来源上升到每个 Medium 和 Hard 任务。

#### 合成数据、评判和数据污染。
我的流水线属于通过自生成扩展数据的谱系,从从模型自身输出中引导指令 (?;?) 到大规模合成指令和对话数据 (?;?;?)。但它颠覆了通常的目标:我合成一个评估集,其中正确性而非多样性是约束条件。随之而来有两个风险。首先,模型生成的黄金标准需要可信的验证;我的接受门控使用保留的LLM评判器,这是一个现已标准的工具,其人类一致性和偏差已被记录 (?;?)。其次,模型生成的任务可能定义不足、过于容易或已在预训练中见过,因此数据污染是一个核心质量关注点 (?;?),并有一系列匹配的检测方法 (?;?;?)。我通过以可验证性为先的构建——每个黄金标准集被独立重新枚举并搜索认证——以及针对现有评估集的明确去污染筛选来应对这两点。

## Ko‑WideSearch 基准

我构建 **Ko‑WideSearch** 分为五个步骤,依次阐述。我首先固定任务及其四个度量。然后一个自主的构建与验证流水线构造每张黄金标准表,并通过三个独立门控进行认证。两个结构旋钮——表格宽度和二维复合键——设定三个难度层级。一个单一的归一化感知比较器,在黄金标准构建和评分之间共享,确保稳定列不会被误认为是来源脆弱的列。最后,由于LLM无法可靠地猜测表格内容是在一个页面上还是分布在多个页面上,我基于网络实际验证一个正交的溯源标签。

### 任务定义

一个 **Ko‑WideSearch** 实例是一个问题,它 (i) 通过谓词 \(Y\) 命名一个封闭的有限集合,并且 (ii) 请求每个成员的 \(m{-}k\) 个属性。黄金标准答案是一组 \(n\) 行,每行是一个 (名称, 属性) 对,跨越 \(m\) 列;前 \(k\) 列是成员键(\(k=1\) 为普通主键,\(k=2\) 为二维跨产品,例如 队伍×赛季),其余的是属性。上面的低成本航空公司任务是一个小实例:九行,以航空公司名称为键(\(k=1\)),加上四个属性列(母公司、成立年份、枢纽、机队规模),总共五列。我在本文中追踪的困难集合示例(图1 (https://arxiv.org/html/2606.27595#Sx1.F1))是 \(k=2\) 的情况:其行以 (省份, 选举轮次) 对为键,因此成员资格本身就是一个网格——17×2=34 行。一个模型通过解析其预测的表格并将其与黄金标准在键列上匹配来评分:

- • **Item‑F1**:行键上的集合成员精确率/召回率。
- • **Column‑F1**:在匹配行上的每个属性单元格正确率(微平均和宏平均)。
- • **Row‑F1**:键和每个属性单元格都正确的行的比例——严格的端到端度量。
- • **表成功率**:完全正确的表的比例(Row‑F1=1),匹配 WideSearch 的主要通过标准。

单元格使用一个共享的类型感知比较器(下文);真正缺失的黄金标准单元格标记为哨兵值并从评分中排除。每列带有 WideSearch 风格的度量声明——精确匹配、数字或日期容差、URL匹配,或者对于自由文本值,LLM评判标准——但整个过程中发布的数字由确定性比较器产生,该比较器通过保守的归一化文本匹配而非调用评判器来评判自由文本单元格。

### 构建流水线

每张表由一个自主流水线产生,然后由独立门控认证。

#### 构建。
一个构建代理接收一个集合‑父种子实体,并在 `search/open/find` 工具命名空间内,设计一个有界枚举问题并通过穷举搜索构建黄金标准表。时间易变属性被固定到明确的"截至"日期(例如 2026‑06),使得答案稳定;时间不变表不携带此类日期。

#### 验证。
接受需要独立通过以下测试:

1. 1. **不可记忆性**。一个闭卷模型不得从记忆中再现黄金标准单元格。我评分项目和属性单元格,而不仅仅是名称,因此即使一个集合的成员众所周知,但其属性需要查找,仍是不可记忆的。该门控为闭失败:不确定的检查被视为拒绝。
2. 2. **完整性**。一个独立代理仅从问题重新枚举成员资格;两个集合必须一致(集合F1 ≥ τ),作为黄金标准集完整且边界明确的代理。
3. 3. **跨来源属性验证**。一个独立的步骤对已知成员重新查找每个属性;如果一列的值与该独立来源不一致,则作为来源脆弱列被丢弃。接受要求至少有一个跨验证的属性列存活:只有名称的列表不是有效的广度任务。

### 难度层级

广度有两个结构性的困难来源,我分别调节它们。

相似文章

EvoBrowseComp:面向演进知识的搜索代理基准测试

arXiv cs.CL

本文介绍了EvoBrowseComp,这是一个动态基准测试,包含400个英文和400个中文复杂问题,通过实时网络遍历合成,用于评估搜索代理,避免测试集污染,确保对参数记忆的鲁棒性。

LoHoSearch:超越人类难度上限的长时域搜索智能体基准

arXiv cs.CL

LoHoSearch是一个用于评估长时域搜索智能体的新基准,基于包含700万维基百科实体的知识图谱构建。它引入了具有大搜索空间和结构复杂性的问题,以超越人类编写的难度上限,并显示出最佳模型仅达到34.74%的准确率。