AI代理能否综合科学结论?
摘要
本文介绍了SciConBench,这是一个大规模基准测试,包含9.11K个问题及专家编写的结论,用于评估AI代理从开放领域证据中综合科学结论的能力。研究发现,即使在洁净室环境下,最佳代理的事实F1得分仅为0.337,表明可靠的综合仍然是一个开放挑战。
查看缓存全文
缓存时间: 2026/06/11 13:46
# 人工智能代理能否综合科学结论?来源:https://arxiv.org/html/2606.11337
Hayoung Jung♠Pedro Viana Diniz♣José Reinaldo Corrêa Roveda♣ Abner Fernandes da Silva♣Haeun Jung♡Enoch Tsai♢ Aleksandra Korolova♠Manoel Horta Ribeiro♠11footnotemark:1
♠普林斯顿大学♣米纳斯吉拉斯联邦大学 ♡石溪大学♢哈肯萨克子午健康医学院
\{hayoung, korolova, manoel\}@cs\.princeton\.edu
![[无标题图片]](https://arxiv.org/html/2606.11337v1/images/icons/github.png)
代码:https://github.com/hayoungjungg/SciConBench
![[无标题图片]](https://arxiv.org/html/2606.11337v1/x1.png)
SciConBench数据集:hayoungjung/SciConBench (https://huggingface.co/datasets/hayoungjung/SciConBench)
###### 摘要
科学AI代理越来越多地检索证据、跨来源进行推理并综合结论,用于影响深远的决策。然而,它们在健康等高风险领域进行此类操作的能力尚不明确。我们引入SciConBench,一个包含9.11K个问题和专家撰写结论的大规模实时基准,用于评估开放域科学结论的综合能力。该基准基于一个经过专家验证的自动化评估流水线,将结论分解为原子事实,并通过事实精确率和召回率衡量正确性和全面性。为减轻数据泄露,我们进一步引入SciConHarness,一个清洁室评估工具,为代理配备受控的网页交互,以确保有效的测量。评估8个前沿模型和深度研究代理后发现,事实质量仍然很低:在清洁室设置下,最佳代理仅达到0.337的事实F1值。我们的清洁室设置持续地降低了相对于无约束评估的性能,表明泄露会膨胀模型真实综合能力的估计。最后,我们审计了面向消费者的代理(例如Google AI Overview、OpenEvidence),发现它们经常生成不完整甚至自相矛盾的结论,即使真实答案可用时也是如此。总体而言,我们的结果表明,可靠地综合科学结论仍然是一个开放挑战,并且清洁室评估对于评估开放域AI代理至关重要。
## 1 引言
AI代理正在改变个人和机构获取并应用科学知识的方式[5 (https://arxiv.org/html/2606.11337#bib.bib134),80 (https://arxiv.org/html/2606.11337#bib.bib129),128 (https://arxiv.org/html/2606.11337#bib.bib125)]。与传统的搜索引擎(如Google搜索)不同,后者检索相关文档而将综合工作留给用户,来自Anthropic[6 (https://arxiv.org/html/2606.11337#bib.bib131)]、Google DeepMind[44 (https://arxiv.org/html/2606.11337#bib.bib133)]、OpenAI[81 (https://arxiv.org/html/2606.11337#bib.bib44)]和Perplexity[93 (https://arxiv.org/html/2606.11337#bib.bib132)]等公司的代理系统越来越多地从科学证据中综合结论。它们从开放网络检索相关证据,过滤不相关来源,协调冲突性发现,评估证据质量,并生成长篇的专家级结论。这种长期视野的任务——科学结论综合——正越来越多地被委托给此类系统,从而加速决策过程,并在健康、科学和政策领域塑造决策[80 (https://arxiv.org/html/2606.11337#bib.bib129),128 (https://arxiv.org/html/2606.11337#bib.bib125)]。
科学综合最具影响力的领域之一是健康,其影响已在实践中显现。OpenAI报告称,每周有数十亿条ChatGPT消息与医疗保健相关,每天有4000万用户,包括普通公众(其中许多人信任AI生成的健康信息)以及依赖AI探索症状和治疗的医生[80 (https://arxiv.org/html/2606.11337#bib.bib129)]。最近,像OpenEvidence这样的专业平台作为临床AI助手服务于高风险决策,据报道已处理超过2亿次AI驱动的健康咨询,并在美国临床医生中广泛使用[87 (https://arxiv.org/html/2606.11337#bib.bib3)]。
参见说明文字
图1:概述。(1) 我们构建了SciConBench,一个包含9.11K个问题和专家撰写结论的实时基准。(2) 该基准通过使用网络工具评估AI代理进行科学综合的能力。(3) SciConHarness通过阻止真实结果工件强制执行清洁室评估。(4) 生成的结论使用一个经过专家验证的流水线与真实参考进行比较,该流水线将两者分解为原子事实,并计算事实精确率、召回率和F1值。(5) 结果表明,在清洁室评估下,前沿系统的事实F1值较低,凸显了可靠科学结论综合的难度。
然而,先前的工作在评估AI代理从开放网络综合长期视野的、长篇科学结论这一完整任务方面存在不足。现有工作侧重于中间产物,例如检索和引用准确性[2 (https://arxiv.org/html/2606.11337#bib.bib145),39 (https://arxiv.org/html/2606.11337#bib.bib146),68 (https://arxiv.org/html/2606.11337#bib.bib147)]、摘要[54 (https://arxiv.org/html/2606.11337#bib.bib92),107 (https://arxiv.org/html/2606.11337#bib.bib70),131 (https://arxiv.org/html/2606.11337#bib.bib143)]、短事实性[119 (https://arxiv.org/html/2606.11337#bib.bib126),120 (https://arxiv.org/html/2606.11337#bib.bib127)]或多项选择问答[53 (https://arxiv.org/html/2606.11337#bib.bib64),90 (https://arxiv.org/html/2606.11337#bib.bib144),115 (https://arxiv.org/html/2606.11337#bib.bib142),116 (https://arxiv.org/html/2606.11337#bib.bib71)],而非科学结论。因此,它们未能捕捉科学结论综合的核心挑战和现实复杂性。最近的工作通过使用专家策划的数据集评估开放网络综合[14 (https://arxiv.org/html/2606.11337#bib.bib24),34 (https://arxiv.org/html/2606.11337#bib.bib23),62 (https://arxiv.org/html/2606.11337#bib.bib18),71 (https://arxiv.org/html/2606.11337#bib.bib16),92 (https://arxiv.org/html/2606.11337#bib.bib130),99 (https://arxiv.org/html/2606.11337#bib.bib22)],从而更近一步。然而,这些基准仍然有限:由于专家策划成本高昂,它们通常规模较小(\(N \leq 100\)),随着新信息的出现会变得过时,并且未能解决基准泄露问题——模型可能预先训练过或检索到真实结果工件。
在本工作中,我们引入了SciConBench,一个包含9.11K个问题和专家撰写结论的实时基准,源自Cochrane系统评价数据库(CDSR)。SciConBench评估代理是否能够从开放网络证据中综合科学结论,并且每月更新新的CDSR评价以减少基准泄露。为了进一步减轻泄露,我们引入了SciConHarness,一个配备受控网络搜索和浏览工具的清洁室评估工具。最后,我们开发了一个事实评估流水线,将生成的结论分解为原子事实¹,并使用基于LLM的判断器来衡量事实精确率(正确性)、事实召回率(覆盖度)和F1值(整体质量),结果显示出与专家判断的高度一致。
我们对SciConBench上的8个前沿模型和深度研究代理进行了评估,发现在清洁室评估下,科学结论综合仍然是一个开放挑战:最佳系统o3-deep-research仅达到F1=0.337。在所有系统中,清洁室评估相对于无约束设置(代理可以访问真实结果工件)将事实F1降低了0.02–0.172,这表明显著的表观性能来自于检索真实结果工件而非真正的综合。这凸显了清洁室评估对于有效测量开放域AI代理能力的重要性。
最后,我们审计了日益在健康领域使用的面向消费者的代理(例如Google AI Overview、OpenEvidence)[4 (https://arxiv.org/html/2606.11337#bib.bib113),88 (https://arxiv.org/html/2606.11337#bib.bib111),113 (https://arxiv.org/html/2606.11337#bib.bib112)]。尽管可以访问真实结果工件,这些系统仍然不可靠(F1=0.361–0.522),经常生成不完整甚至自相矛盾的结论。
我们的主要贡献是:
1. 我们引入了SciConBench,一个包含9.11K个问题和专家撰写科学结论的大规模实时基准,捕捉现实世界的开放域科学综合任务。
2. 我们开发了SciConHarness,一个清洁室评估工具,为AI代理提供受控的网络工具,减轻泄露并实现对综合能力的有效测量。
3. 使用我们经过专家验证的事实评估流水线,该流水线将结论分解为事实并衡量事实精确率和召回率,我们对前沿模型和深度研究代理的基准评估表明,可靠的科学结论综合仍未解决。
4. 我们审计了广泛部署的面向消费者的代理,包括Google AI Overview和OpenEvidence,发现它们综合出不完整且有时自相矛盾的科学结论,引发了对其在现实世界健康语境中用于高风险决策的担忧。
## 2 SciConBench数据集
SciConBench利用Cochrane系统评价数据库,评估模型在科学结论综合这一长期视野任务上的表现:检索相关来源、评估证据质量、整合异质证据以构建长篇的专家级结论。
背景。Cochrane系统评价数据库(CDSR)是一个经过同行评审的系统评价集合,综合证据以回答明确定义的临床和公共卫生问题[110 (https://arxiv.org/html/2606.11337#bib.bib1)]。每篇评价识别并评估一组相关研究——从几篇到数百篇出版物——以回答一个明确的临床或公共卫生问题。该评价评估证据质量,协调冲突发现,并将整体证据综合成简洁的段落式结论[46 (https://arxiv.org/html/2606.11337#bib.bib103),72 (https://arxiv.org/html/2606.11337#bib.bib101),111 (https://arxiv.org/html/2606.11337#bib.bib4)]。为确保结论随着新科学证据的出现而保持时效性,CDSR每两年重新评估文献并更新结论[26 (https://arxiv.org/html/2606.11337#bib.bib7)],尽管Frenchet al.[36 (https://arxiv.org/html/2606.11337#bib.bib6)]发现大多数结论随时间保持稳定。作为循证综合的“金标准”[104 (https://arxiv.org/html/2606.11337#bib.bib100)],CDSR的专家撰写结论为现实世界的临床决策和卫生政策提供信息,使其成为评估AI代理从科学文献中综合结论能力的有价值数据来源。
自动化数据收集:实时基准。我们通过从定期更新的CDSR中抽取系统评价来构建实时基准。截至2026年1月1日,我们共收集了9531篇系统评价,其中424篇被撤回,故有效评价为9107篇。鉴于对前沿模型预训练期间基准泄露的日益关注[126 (https://arxiv.org/html/2606.11337#bib.bib99)],我们将基准设计为随着新CDSR评价发布而持续更新。与静态基准[13 (https://arxiv.org/html/2606.11337#bib.bib8),63 (https://arxiv.org/html/2606.11337#bib.bib98),71 (https://arxiv.org/html/2606.11337#bib.bib16)]相比,这能确保对最新代理进行及时评估,同时减轻泄露。
数据预处理。我们将专家撰写的系统评价转换为结构化的问答(QA)评估单元。对于每篇评价,我们使用“目的”作为问题的基础,并使用“作者结论”作为答案。参见图S7 (https://arxiv.org/html/2606.11337#A2.F7)的示例。“目的”定义了研究问题以及评价旨在解决的范围——通常围绕人群、干预、对照和结局(PICO)框架构建——而“结论”则提供相应的循证综合,包括关键发现及其确定性。
问题生成。由于“目的”通常是陈述句而非问题,我们使用PICO框架(参与者、干预、比较、结局)将其转化为临床导向的问题,PICO框架广泛用于制定临床研究问题和指导证据检索[112 (https://arxiv.org/html/2606.11337#bib.bib48)]。我们使用gpt-5-chat将每个“目的”转换为句子式问题,这与先前的研究一致,表明用户在使用大语言模型时更喜欢句子式查询而非关键词输入[23 (https://arxiv.org/html/2606.11337#bib.bib51),130 (https://arxiv.org/html/2606.11337#bib.bib55)]。这种表述符合现实世界的使用场景,即临床医生和科学家越来越多地向AI系统提出科学和医学问题以辅助决策[12 (https://arxiv.org/html/2606.11337#bib.bib36),40 (https://arxiv.org/html/2606.11337#bib.bib45)]。通过应用此流水线,我们构建了一个包含9107个样本的问答式基准,涵盖近30年的系统评价,涉及从新生儿护理到肾脏疾病的广泛科学和临床领域。我们在§B.1 (https://arxiv.org/html/2606.11337#A2.SS1)中提供了更多细节,包括提示和示例问题(图S3 (https://arxiv.org/html/2606.11337#A2.F3))。
验证。我们通过两位具有丰富临床研究经验的医学生的标注来验证生成的问题是否忠实反映了每篇CDSR评价的意图和范围。给定生成的问题、“目的”和CDSR评价的“背景”,标注者从三个维度评估问题质量,这些维度基于先前的工作[57 (https://arxiv.org/html/2606.11337#bib.bib31),74 (https://arxiv.org/html/2606.11337#bib.bib15),91 (https://arxiv.org/html/2606.11337#bib.bib83)]:忠实度、PICO完整性、清晰度与可回答性。在标定阶段,标注者标注10个问题以验证任务指南并解决分歧。然后他们独立标注额外10个问题以评估可靠性,使用对偏斜标签分布鲁棒的Gwet's AC1[79 (https://arxiv.org/html/2606.11337#bib.bib13),124 (https://arxiv.org/html/2606.11337#bib.bib14)]。各维度的一致性很高(AC1: 0.756–1.00;见表S4 (https://arxiv.org/html/2606.11337#A2.T4)),与先前工作相当或更优[57 (https://arxiv.org/html/2606.11337#bib.bib31),91 (https://arxiv.org/html/2606.11337#bib.bib83)]。鉴于高度一致,每位标注者独立标注了40个问题(总计N=100)。我们发现生成的问题在忠实度(92%)、PICO完整性(92%)和清晰度与可回答性(96%)方面表现良好。附录§B.2 (https://arxiv.org/html/2606.11337#A2.SS2)提供了详细资料,包括标注指南(图S4 (https://arxiv.org/html/2606.11337#A2.F4))和界面(图S5 (https://arxiv.org/html/2606.11337#A2.F5)–S6 (https://arxiv.org/html/2606.11337#A2.F6))。
## 3 SciConHarness:清洁室中的受控评估
在开放域信息访问中综合科学结论具有挑战性,因为模型可能找到包含已有结论的来源。相似文章
AI编程代理可复现社会科学发现
本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。
PaperBench:评估AI复现AI研究的能力
OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。
COMPOSITE-STEM
COMPOSITE-STEM 引入了一个包含70项专家策划的智能体任务的基准测试,涵盖物理、生物、化学和数学领域,旨在评估AI智能体在超越饱和基准测试的科学工作流中的表现。性能最佳的模型(Claude Opus 4.6)仅达到21.4%的准确率,表明科学推理能力存在显著差距。
AI科学家产出结果却未进行科学推理[R]
一项对25,000次AI科学家试验的研究发现,智能体68%的时间忽视证据,极少修正假设,显示流行的脚手架修复方法并未赋予真正的科学推理能力。
自动化智能体评估的实证研究
本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。