LakeQA:百万级数据湖上的探索性问答基准
摘要
LakeQA是一个新的基准,用于在百万级数据湖上进行探索性问答,评估跨文本、表格和知识图谱的多跳推理和组合能力。
arXiv:2606.10460v1 公告类型:新
摘要:近期,大型语言模型(LLM)在基于阅读的问答中取得了快速进展,其中证据被显式提供或可轻易检索。相比之下,现实世界的问题往往没有配对的准确证据文档。有用的证据存在于海量数据湖中,使得搜索成为回答的前提。然而,目前缺乏同时要求在大数据湖中搜索和推理的综合性基准。为此,我们提出了LakeQA,一个以搜索为中心的数据湖问答综合基准,同时强调搜索和推理能力。LakeQA基于从维基百科和开源政府数据中收集的约9.5 TB异构文本资源构建,涵盖结构化和非结构化数据。为确保任务质量,每个样本至少由一位博士级专家标注。每个任务都需要长程多跳推理,并包含隐式的中间步骤:智能体需要发现正确的文档,然后跨来源组合证据以生成答案。在七个前沿大语言模型上的实验结果表明,LakeQA具有挑战性。例如,GPT-5.2在LakeQA上的精确匹配分数仅为18.37%。总体而言,LakeQA为开发能够在现代数据湖中查找和分析数据的LLM智能体提供了一个现实的测试平台。
查看缓存全文
缓存时间: 2026/06/10 06:11
# LakeQA:百万级数据湖上的探索性问答基准
来源:https://arxiv.org/html/2606.10460
表4:LakeQA-mini上的结果。composition\}转化为来自WebQuestionsSP的SPARQL查询。- •conjunction接受两个SPARQL查询,确保它们的交集为非空集,因此输出的SPARQL仅简单拼接涉及查询的相关条件。- •comparative接受一个SPARQL查询,找到一个该SPARQL查询的指代对象共有的属性,并对该属性应用过滤器。- •superlative与comparative基本类似,区别在于不是应用过滤器,而是寻找 argmax/argmin。- •composition从一个SPARQL查询rr开始,找到rr中的一个实体ee,然后将该实体替换为另一个答案集为\{e\\\}\{e\\\}的问题——通过查询知识库并找到ee的唯一标识符。在得到每个任务的SPARQL后,雇佣AMT工人将其翻译成自然语言问题。### B.2 HotpotQA(yang2018hotpotqa)【文本,检索,显式多跳推理】
HotpotQA是一个阅读理解基准,评估智能体在信息检索和多跳推理上的问答能力。与ComplexWebQuestion不同,后者的问题依赖维基百科知识图谱,迫使问题只涉及知识图谱中的实体(这是一个不完整的来源)。HotpotQA提出了一种基于维基百科页面间超链接的方法,步骤如下:
- •作者首先提取每个维基百科页面的第一段。然后,将这些段落视为节点,如果一段中包含指向另一段的超链接,则在两个节点之间添加边,构建超链接图。
- •桥接实体:注释者首先看到第一步中由超链接图中的一条边相连的一对段落,然后提出需要同时依赖这两个段落才能回答的问题。
- •比较:作者从维基百科中整理出42个相似实体列表(每个列表包含多个段落),向注释者展示同一列表中的两个段落,要求创建如“谁在NBA打过的比赛更多,科比·布莱恩特还是迈克尔·乔丹?”这类问题。
除了提供确切上下文的问题,HotpotQA还测试更困难的任务:在问题中加入干扰段落以测试鲁棒性,以及加入完整的维基百科段落(500万段落)以测试相关信息检索能力。
### B.3 MuSeQue(trivedi2022musique)【文本,多跳推理,组合式】
MuSiQue旨在解决HotpotQA中的“捷径”问题——模型往往依赖单跳线索或实体重叠绕过预期的推理链。为缓解这一问题,MuSiQue引入了一种自底向上的系统化构建过程。作者不是从一个复杂问题开始然后分解它,而是从一个包含大量现有数据集(Natural Questions和HotpotQA)中相连的单跳问题所组成的2跳、3跳和4跳推理图池开始。
### B.4 HybridQA(chen2020hybridqa)【文本,表格,显式多跳推理】
HybridQA的一个关键贡献是将表格和文本都整合到问题上下文中。HybridQA的数据源包括作为表格数据集的WebTables和来自维基百科的文本段落。为了创建HybridQA的任务,注释者会收到HIT(人工智能任务),每个HIT包含一个单独的WebTable以及由其单元格中超链接所链接的段落555HybridQA最多截取维基百科页面介绍段落的前12句话,以及小规模WebTable(5-20行,3-6列),其中超链接单元格占比超过总单元格的35%,最终得到13000个WebTable。。对于每个HIT,注释者需要创建6个问题,要求回答时同时依赖表格和文本信息。问题基于以下三种原子推理链创建:
- •表格→段落链:先使用表格操作(等于/大于/小于/第一个/最后一个/argmax/argmin)定位表格中的某个元组,然后从该元组超链接指向的段落中检索一段文本。
- •段落→表格链:与第一种类型相反,先检索一个段落,然后询问指向该段落的超链接所在元组的信息。
- •段落→表格→段落:与段落→表格链相同,但再跳回另一个段落(即同一元组中另一个超链接的单元格)。
HybridQA中还有另外三种任务类型,对应于(talmor2018web)中的conjunction、comparative和superlative操作符,用于基于三种原子推理链创建的问题组合成更复杂的问题。
### B.5 OTT-QA(chen2020open)【文本,表格,检索】
OTT-QA建立在HybridQA之上,复用了HybridQA的问题,但增加了一个额外的检索步骤来搜索相关的表格和文本。为此,OTT-QA将HybridQA中的任务去上下文化——去除自然语言问题中依赖于上下文的词汇。例如,HybridQA问题中的“the players”是上下文相关的,因为上下文中的表格是关于“Netherlands players”的。但在OTT-QA中,当需要检索相关上下文来回答问题时,这就会产生歧义。此外,OTT-QA的作者将每个表格分解为多个表格片段,每个片段包含一个元组、表格标题、元数据、原始表格的统计信息(例如某列的最小值/最大值)(表格文档)。这样,候选检索池就包含500万个段落和500万个表格片段。
### B.6 MultiModalQA(talmor2021multimodalqa)【文本,表格,图像,显式多跳推理】
MultiModalQA通过将涉及文本、表格和图像的多模态上下文融入问题,扩展了现有的阅读理解数据集,如Natural Questions (NQ)(kwiatkowski2019natural)、BoolQ(clark2019boolq)和HotpotQA(yang2018hotpotqa)。为了构建该基准,注释者首先创建单跳、单模态且持久的问题——即答案不太可能随时间变化的问题。例如,给定一张自由女神像的图片,一个持久的问题可能是“雕像手里拿着什么?”MultiModalQA还采用了来自现有阅读理解数据集(如HotpotQA)的基于文本的问题。最后,更复杂的任务是通过在单跳、单模态问题的引用实体重合时将它们链接起来形成的。例如,一个段落写着“巴拉克·奥巴马出生于美国火奴鲁鲁”,一张表格列出“巴拉克·奥巴马是美国第44任总统”,它们共享同一个维基百科实体(巴拉克·奥巴马),因此可以链接起来形成一个需要同时从段落和表格中获取信息的问题。
### B.7 StrategyQA(geva2021did)【文本,开放域,隐式多跳推理,二元回答】
StrategyQA解决了先前问答基准的一个关键局限——所有回答所需的信息都明确陈述在问题中。相反,它评估隐式多跳推理:中间步骤并未明确给出,必须通过探索和检索来发现。为了构建数据集,注释者首先从一个种子概念和一个目标的是/否答案开始,然后构思一个策略问题,其解决需要组合多个原子事实,每个事实都可以在维基百科中独立验证,但问题中并未明确提及。为了确保可行性(并避免无根据的分解),注释者还为每一步指定一个候选维基百科页面,其中可以找到该事实的证据;发布的数据包含这些隐式事实以及链接的源段落作为可选的中间监督。因此,该基准测试的是开放域检索、组合以及基于隐式证据的推理——超越表面线索或单次阅读。
### B.8 FeTaQA(nan2022fetaqa)【表格,自由形式回答,维基百科】
FeTaQA通过引入基于单个维基百科表格的长篇、信息丰富的自由形式答案,扩展了现有的表格问答基准(这些基准的答案通常是短文,通过精确匹配评估)。为了构建这类问题,FeTaQA从ToTTo(parikh2020totto)开始——一个大规模表格到文本数据集,包含完全基于维基百科表格的自然语言描述,并标记了支持单元格。然后,它筛选ToTTo实例,保留中等大小的表格,以及其标记单元格跨越不止一行或一列的描述。给定每个实例,注释者需要写一个问题,其答案是(可能稍作编辑的)描述——通过对句子、表格内容或标记区域进行可选修改,得到自然的问答交互。为了自动评估生成的答案,FeTaQA报告了n-gram重叠指标(sacreBLEU、ROUGE-1/2/L、METEOR)以及语义相似度指标(BERTScore和BLEURT)。
### B.9 BrowseComp(wei2025browsecomp)【开放域,检索】
BrowseComp是一个开放域的深度研究基准。它包含1266个极具挑战性的“大海捞针”问题,需要多步网页搜索才能找到答案。与问题难以回答相反,结果是简短、易于验证的事实。该基准通过反转典型的问题创建过程来构建:人类注释者从一个已知事实(目标答案)开始,然后向查询添加多个特定的限定条件或约束,直到该事实成为唯一解。为了确保这些任务无法通过捷径解决,注释者需要验证简单的搜索引擎查询(最多尝试5次)不能直接揭示答案,并且SOTA模型(如GPT-4和OpenAI的深度研究智能体)未能解答每个问题。此外,如果另一个人类能在10分钟内找到答案,该任务会被修订,增加额外标准以提高难度。
### B.10 MM-BrowseComp(li2025mm)【多模态,开放域,检索】
MM-BrowseComp扩展了仅文本的网页浏览基准(如BrowseComp),用于评估多模态网页研究能力。它包含224个具有挑战性的问题,要求智能体在浏览器式导航过程中检索并推理文本和视觉内容——关键证据通常嵌入在图像或视频中,无法通过仅文本搜索获得。该基准遵循与BrowseComp类似的逆向问题创建过程,并包含基于检查表的评估,验证智能体是否完成了必要的多模态推理步骤,揭示了当前多模态浏览系统的重大差距。
### B.11 MMQA(wu2025mmqa)【多表,多跳,表格问答】
MMQA是一个多表问答基准,旨在评估跨连接表格的检索和多跳推理能力。与整合文本和图像的多模态QA数据集不同,该基准专注于跨多个关系表的推理,要求模型识别相关表格、理解其结构关系(例如,基于键的连接),并在跳之间合成证据。该基准评估表格检索、关系推理以及下游问答或文本到SQL任务的性能,突显了当前模型在复杂表格推理场景中的局限性。
## 附录C 工具接口
表8:LakeQA中智能体可用的工具接口。
## 附录D 数据收集
### D.1 背景
本节描述LakeQA的数据源。我们通过从开放数据仓库(包括维基百科和data.gov)收集数据来构建一个数据湖。我们使用最新的英文维基百科转储666https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 和哈佛LIL的data.gov档案777https://source.coop/harvard-lil/gov-data。我们的最终目标是创建需要多跳推理和多个数据源(不同维基百科页面及来自data.gov的数据源)的问答任务(QA任务)。为此,我们需要组合来自每个数据源的信息(例如,一个数据源包含“法律X于Y日期修改”的信息,另一个数据源包含“研究Z于Y日期进行”的信息,因此日期Y可以用于连接这两条信息)。LLM智能体将在此步骤中协助注释者验证所创建问题的有效性。
### D.2 任务
维基百科和data.gov上的每个网页被视为一个数据源。请执行以下操作:(1)从脚注提供的链接下载数据;(2)预处理每个数据源,将其放入一个代表该数据源的文件夹(即维基百科或data.gov网页的标题)中,并将所有文件夹上传到你在前置步骤中创建的S3存储桶中;(3)并行化数据下载、预处理和上传流程,以处理大规模数据源(维基百科约≈20GB,data.gov约≈15 TB)。以下是(部分)预处理数据源的说明,如果遇到其他不确定的情况,请告知我。
- •数据源可能包含二进制文件和图片,这些对创建QA任务没有有用信息——将其从文件夹中移除。
- •原始数据源包含HTML文件(以及可能其他格式的文件),冗余内容很多——将其转换为txt文件,方法是移除冗余字符(例如,HTML块应转换为文本,你可以使用Python的bs4库中的BeautifulSoup包来完成)和多余的空白字符(如/n、/t等)。完成后,告诉我你创建的S3存储桶的名称。截止日期是本周六。如有任何问题,请随时联系我。
## 附录E 领域分布
基准任务按data.gov主题类别分布的情况见表9(https://arxiv.org/html/2606.10460#A5.T9),更细粒度的类别分类见表10(https://arxiv.org/html/2606.10460#A5.T10)。
表9:基准任务按data.gov主题类别的分布。
表10:data.gov数据集主题到8个主要类别的映射。任务计数表示包含来自该类别的数据集的基准任务数量。
## 附录F 智能体接口
#### 工具实现。
所有数据访问工具均作用于一个固定的S3数据湖存储桶(lakeqa-yc4103-datalake),包含两个命名空间:wikipedia/和datagov/。凭据通过环境变量加载,所有下载内容存储在每个会话的沙箱目录中。
- •search(prefix):在两个命名空间中执行S3前缀搜索,使用list_objects_v2,设置Prefix和Delimiter='/'。该工具返回每个命名空间下对应目录名称的数据集标识符。
- •search_keyword(keyword):向维基百科API和data.gov的package_search端点发起外部关键词搜索以提出候选,然后通过检查S3中是否存在数据集前缀来验证每个候选。候选按轻量级令牌重叠分数排序(该分数结合了查询覆盖率和令牌密度),返回排名靠前的结果。
- •list_files(dataset_id):在<命名空间>/<数据集ID>/下使用list_objects_v2列出对象,返回相对文件路径和大小(有最大数量限制)。
- •download(dataset_id, file_path):通过s3.download_file将指定对象下载到本地沙箱。该工具创建所需的目录结构,返回本地路径和文件大小。
- •inspect_file(dataset_id, file_path):运行相似文章
SANA:大数据湖问答代理的关键因素是什么?
本文提出了SANA,一个用于数据湖上探索式问答(EQA)的诊断消融框架,它将端到端代理失败分解为搜索、规划、数据分析和策略组件。在LakeQA和KramaBench上的评估显示,数据分析是一个持续的瓶颈,而搜索在大型场景中是一个主要限制。
推出 SimpleQA
OpenAI 推出 SimpleQA,一个新的事实性基准数据集,包含 4,326 个简短事实性问题,旨在评估前沿语言模型在提供准确答案而不产生幻觉的能力。该数据集通过双独立标注、严格标准实现高质量,估计错误率仅为 ~3%,GPT-4o 得分不到 40%。
介绍 IndQA
OpenAI 推出了 IndQA,这是一个包含 2,278 个问题的新基准,涵盖 12 种印度语言和 10 个文化领域,旨在评估 AI 模型对现有基准无法捕捉的文化细微差别和推理密集型任务的理解能力。IndQA 由 261 位领域专家创建,针对 MMMLU 等现有多语言基准的饱和问题,重点关注真实世界的文化理解,而不是翻译或多选题任务。
LQS v3.1 — 一种用于评估AI训练数据的开放方法(多预言机共识 + 签名证书)[P]
作者介绍了LQS v3.1,一种使用多预言机共识和签名证书评估AI训练数据的开放方法,并附有已发表的论文和公共指数。该方法旨在解决AI训练数据市场中独立质量评估的瓶颈问题。
迈向可验证的自主数据科学:通过工具化推理解决不规则时间序列问答
介绍了IRTS-ToolBench,这是一个包含1,700个问题的基准测试,用于通过工具化推理评估大语言模型(LLM)和AI代理在不规则时间序列问答上的表现,涵盖13个领域的10种任务类型。