ScientistOne:通过 Chain-of-Evidence 实现人类级自主研究

arXiv cs.AI 论文

摘要

ScientistOne 引入了 Chain-of-Evidence,这是一个面向自主研究代理的可验证性框架,确保每个声明都可追溯到证据来源。该框架实现了零幻觉引用、完美的分数验证,并在 75 篇论文中达到了最高的方法-代码对齐度,同时在五个前沿研究任务上达到或超过了人类专家水平。

arXiv:2605.26340v1 公告类型:新 摘要:自主研究代理能够生成有竞争力的解决方案和专业水准的稿件,但其输出中存在着表面评估无法检测的可验证性失败:捏造的引用、不可复现的分数,以及与方法实现不符的描述。我们通过三项贡献解决这一问题。首先,Chain-of-Evidence(CoE),一个要求每个声明都可追溯到其证据来源的可验证性框架。其次,ScientistOne,一个端到端的自主研究系统,通过在文献综述、解决方案发现和论文写作过程中保持证据链的构建。第三,CoE Audit,一种事后审计方法,其四项完整性检查——分数验证、规范违反、引用验证和方法-代码对齐——统一应用于所有系统。在涵盖五个系统和五个前沿研究任务的 75 篇论文中,每个基线都至少表现出一种系统性失败模式:幻觉引用率高达 21%,分数验证通过率低至 42%,方法-代码对齐度在 20% 到 80% 之间。ScientistOne 实现了零幻觉引用(0/337)、完美的分数验证(12/12)和最高的方法-代码对齐度(14/15),同时在所有五个任务上达到或超过了人类专家表现。ScientistOne 进一步泛化到六个额外任务,涵盖医学成像、细粒度识别、3D 感知和语言建模,在 Parameter Golf 上达到最先进水平,并在基线上完全失败的 MLE-Bench 任务中获得金牌。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:04

# ScientistOne:通过证据链迈向人类水平的自主研究  
来源:https://arxiv.org/html/2605.26340 \\pdftrailerid redacted\\correspondingauthoraffil0affil0affiliationtext:Google Cloud AI Research Bhavana Dalvi MishraJiefeng ChenChun\-Liang LiPalash GoyalMihir ParmarYiwen SongYale SongRajarishi SinhaParthasarathy RanganathanBurak GokturkJinsung YoonTomas Pfister  

###### 摘要  
自主研究智能体能够生成有竞争力的解决方案和专业的文稿,但其输出可能存在可验证性失败——这些失败无法被仅评估表面呈现而非证据依据的评测所察觉:捏造的引用、不可复现的分数,以及与方法描述脱节的实现。这些失败有一个共同根源:现有评估协议均不审计主张是否有依据,也没有任何现有的自主研究系统被设计为将主张回溯到证据。我们通过三项贡献来填补这一空白。首先,**证据链(Chain-of-Evidence, CoE)**,一个可验证性框架,要求每项主张都能追溯到其证据来源。其次,ScientistOne,一个端到端的自主研究系统,在文献综述、方案发现和论文撰写的整个过程中,通过构造维护证据链。第三,**CoE完整性审计(CoE Integrity Audit)**,一种事后审计,其四项完整性检查——分数验证、规格违规、参考文献验证和方法-代码对齐——统一适用于所有系统。在跨越五个系统和五项前沿研究任务的75篇论文中,我们发现每个基线都存在至少一种系统性失败模式:幻觉引用率高达21%,分数验证通过率低至42%,方法-代码对齐在20%到80%之间。ScientistOne是唯一实现零幻觉引用(0/337条参考文献条目)、完美分数验证(12/12)和方法-代码对齐最高(14/15)的系统,同时在所有五项任务上匹配或超越人类专家表现。我们进一步证明ScientistOne能够泛化到涵盖医学影像、细粒度识别、3D感知和参数约束语言建模的另外六项任务,在Parameter Golf上达到最先进水平,并在基线完全失败的MLE-Bench任务上获得金牌。项目网站:https://scientist-one.github.io/  

###### 摘要  
自主研究智能体能够生成有竞争力的解决方案和专业的文稿,但其输出可能存在可验证性失败——这些失败无法被仅评估表面呈现而非证据依据的评测所察觉:捏造的引用、不可复现的分数,以及与方法描述脱节的实现。这些失败有一个共同根源:现有评估协议均不审计主张是否有依据,也没有任何现有的自主研究系统被设计为将主张回溯到证据。我们通过三项贡献来填补这一空白。首先,**证据链(Chain-of-Evidence, CoE)**,一个可验证性框架,要求每项主张都能追溯到其证据来源。其次,ScientistOne,一个端到端的自主研究系统,在文献综述、方案发现和论文撰写的整个过程中,通过构造维护证据链。第三,**CoE完整性审计(CoE Integrity Audit)**,一种事后审计,其四项完整性检查——分数验证、规格违规、参考文献验证和方法-代码对齐——统一适用于所有系统。在跨越五个系统和五项前沿研究任务的75篇论文中,我们发现每个基线都存在至少一种系统性失败模式:幻觉引用率高达21%,分数验证通过率低至42%,方法-代码对齐在20%到80%之间。ScientistOne是唯一实现零幻觉引用(0/337条参考文献条目)、完美分数验证(12/12)和方法-代码对齐最高(14/15)的系统,同时在所有五项任务上匹配或超越人类专家表现。我们进一步证明ScientistOne能够泛化到涵盖医学影像、细粒度识别、3D感知和参数约束语言建模的另外六项任务,在Parameter Golf上达到最先进水平,并在基线完全失败的MLE-Bench任务上获得金牌。项目网站:https://scientist-one.github.io/  
**脚注:**这些作者对本文贡献相等。

## 1 引言

大型语言模型正越来越多地被部署为自主智能体,而非孤立的助手,它们执行整个研究流程——从文献综述和假设生成,到实验设计和执行,再到论文撰写(Lu等人,2024(https://arxiv.org/html/2605.26340#bib.bib19);Yamada等人,2025(https://arxiv.org/html/2605.26340#bib.bib33);Weng等人,2025(https://arxiv.org/html/2605.26340#bib.bib31);Tang等人,2025(https://arxiv.org/html/2605.26340#bib.bib29);Schmidgall等人,2025(https://arxiv.org/html/2605.26340#bib.bib27);Jansen等人,2025(https://arxiv.org/html/2605.26340#bib.bib9))。在系统优化任务上,这些智能体现已能产生与人类专家竞争的解决方案(Cheng等人,2025b(https://arxiv.org/html/2605.26340#bib.bib5);Novikov等人,2025(https://arxiv.org/html/2605.26340#bib.bib23)),端到端流水线已生成被同行评审研讨会接受的论文(Yamada等人,2025(https://arxiv.org/html/2605.26340#bib.bib33))。由此产生的工件——代码、实验结果和专业的文稿——仅凭表面质量越来越难以与人类撰写的研究区分。

这种快速能力增长暴露了**生成**与**验证**之间的结构性张力。自主研究系统作为多阶段流水线运行,每个阶段都消耗上一阶段的输出:文献摘要影响假设,假设决定实验,实验结果输入到论文。在这种架构中,任何阶段引入的错误不仅会被保留,还会被放大——一个有缺陷的摘要可能使实验设计产生偏差,一个误解的结果可能贯穿到一篇看似内部一致的论文中,恰恰因为同一错误在各章节中一致反映。风险随着轨迹长度增加而增长:智能体难以跟踪不断扩展的上下文(Liu等人,2024(https://arxiv.org/html/2605.26340#bib.bib14),2023b(https://arxiv.org/html/2605.26340#bib.bib17)),会产生幻觉,并从原始目标漂移。这个问题因语言模型处理证据时的根本限制而加剧:生成的文本难以对照来源进行验证(Liu等人,2023a(https://arxiv.org/html/2605.26340#bib.bib13)),事实主张会偏离其依据(Min等人,2023(https://arxiv.org/html/2605.26340#bib.bib22)),科学引用经常不准确或捏造(Press等人,2024(https://arxiv.org/html/2605.26340#bib.bib25))。在自主流水线中,这些失败模式相互作用并复合——模型可能夸大方法描述,使其超出代码实际实现的内容;报告在基准自身评估器中无法复现的分数;从参数化记忆而非检索中填充参考文献,同时生成读起来技术上合理的文本。现有的评估协议,无论是自动评审分数还是基准排行榜,都评估表面呈现(即论文读起来如何)和流程完成度,但不检查单个主张是否可追溯到支持证据。这种可验证性差距并非假设。

在对来自五个自主研究系统、跨越五个基准任务的75篇论文的系统性审计中,我们发现**所有基线系统都存在证据链失败**:幻觉引用(对应任何真实出版物的引用)高达所有参考文献条目的21%;方法章节描述了提交代码中没有的算法;不可复现的分数;以及利用评估器而非解决任务的解决方案代码。这些失败有一个共同根源:**没有现有的评估协议审计主张是否被支持,也没有任何现有的自主研究系统被设计为将主张回溯到证据。** 我们通过**证据链(Chain-of-Evidence, CoE)**来解决这个问题,这是一个针对AI驱动研究的可验证性框架。正如ACID¹¹¹原子性、一致性、隔离性、持久性(Härder和Reuter,1983(https://arxiv.org/html/2605.26340#bib.bib7))定义了“可靠”对于数据库事务的含义,CoE定义了“可验证”对于研究主张的含义:**每项主张必须通过记录的证据链,追溯到其依据来源。**

我们以三种方式实例化CoE:
1. **CoE标准(§3(https://arxiv.org/html/2605.26340#S3))**:一个主张分类(引用、数值、方法论、结论)以及每种类型所需的证据链结构。
2. **ScientistOne(§4(https://arxiv.org/html/2605.26340#S4))**:一个端到端的自主研究系统,其流水线——问题调研器、发现引擎和带声明验证器的论文撰写器——被设计为原生满足CoE。问题调研器每个主题最多阅读100篇全文PDF,生成有依据的实验简报。声明验证器在最终论文生成前,检查草稿中的每项主张是否与其声明的证据来源一致。
3. **CoE完整性审计(§5(https://arxiv.org/html/2605.26340#S5))**:一种事后审计,通过四项完整性检查——分数验证、规格违规、参考文献验证和方法-代码对齐——来验证AI驱动的研究论文,针对最具破坏性的证据链失败。

我们将CoE完整性审计应用于来自五个系统、跨越ADRS(Cheng等人,2025b(https://arxiv.org/html/2605.26340#bib.bib5);Liu等人,2026c(https://arxiv.org/html/2605.26340#bib.bib16))(§6(https://arxiv.org/html/2605.26340#S6))中五项前沿系统研究任务的各15篇论文。每个基线都至少有一项完整性检查失败。ScientistOne实现了零幻觉引用(0/337条参考文献条目)、完美分数验证(12/12)和方法-代码对齐最高(14/15),同时在所有五项任务上匹配或超越人类专家解算器表现。我们进一步证明ScientistOne能够泛化到涵盖医学影像、细粒度识别、3D感知和参数约束语言建模的另外六项任务,在Parameter Golf上达到最先进水平,并在基线完全失败的MLE-Bench任务上获得金牌。

## 2 相关工作

#### 自主研究智能体。
端到端自主研究系统已迅速从受约束的ML模板扩展到多阶段流水线,协调文献依据、假设生成、实验和论文撰写。AI Scientist(Lu等人,2024(https://arxiv.org/html/2605.26340#bib.bib19))开创了端到端自动化,但运行在固定的ML模板上,频繁出现撰写幻觉且论文质量有限。AI Scientist-v2(Yamada等人,2025(https://arxiv.org/html/2605.26340#bib.bib33))通过实验分支上的最佳优先树搜索(BFTS)和审稿感知报告推进了这一方向,达到了研讨会级别的论文质量。并发系统以不同方向扩展了流水线。在构思方面,PiFlow(Pu等人,2025(https://arxiv.org/html/2605.26340#bib.bib26))通过信息论原则选择引导假设探索,CodeScientist(Jansen等人,2025(https://arxiv.org/html/2605.26340#bib.bib9))将构思共同基于文献和代码。Curie(Kon等人,2025a(https://arxiv.org/html/2605.26340#bib.bib10))通过与我们I1分数验证类似的可复现性检查来验证实验执行,尽管它不审计撰写的声明是否如实反映验证结果。Agent Laboratory(Schmidgall等人,2025(https://arxiv.org/html/2605.26340#bib.bib27))将人工把关引入流水线。AlphaEvolve(Novikov等人,2025(https://arxiv.org/html/2605.26340#bib.bib23))将进化搜索应用于算法优化,EvoScientist(Lyu等人,2026(https://arxiv.org/html/2605.26340#bib.bib21))使用多智能体自我进化进行端到端发现。我们评估AI Scientist-v2以及另外三个系统——AutoResearchClaw(Liu等人,2026a(https://arxiv.org/html/2605.26340#bib.bib12))、DeepScientist(Weng等人,2025(https://arxiv.org/html/2605.26340#bib.bib31))和AI-Researcher(Tang等人,2025(https://arxiv.org/html/2605.26340#bib.bib29))——其架构选择产生了不同的完整性概况(§6.1(https://arxiv.org/html/2605.26340#S6.SS1))。尽管架构多样,一个共同模式显现:生成和执行能力增长快于验证和溯源机制,因此那些能产生专业文稿的系统可能仍然包含断裂的证据链。ScientistOne针对这一差距——我们并非推进自主性边界,而是专注于使自主研究输出可验证。

#### LLM驱动的优化与基准。
ADRS基准(Cheng等人,2025b(https://arxiv.org/html/2605.26340#bib.bib5))收集了真实的前沿计算机系统研究问题,并作为我们的主要评估测试平台。EvoX(Liu等人,2026b(https://arxiv.org/html/2605.26340#bib.bib15))和AdaEvolve(Cemri等人,2026(https://arxiv.org/html/2605.26340#bib.bib1))通过专注于算法发现和实现优化而不涉及文献依据或论文撰写,在ADRS上取得了强劲结果。更广泛的评估资源近期大量涌现。Auto-Bench(Chen等人,2025(https://arxiv.org/html/2605.26340#bib.bib3))、ResearchBench(Liu等人,2025(https://arxiv.org/html/2605.26340#bib.bib18))和ResearcherBench(Xu等人,2025(https://arxiv.org/html/2605.26340#bib.bib32))评估研究相关能力,如因果推理、假设生成和研究问题回答。MLAgentBench(Huang等人,2023(https://arxiv.org/html/2605.26340#bib.bib8))、EXP-Bench(Kon等人,2025b(https://arxiv.org/html/2605.26340#bib.bib11))和PaperBench(Starace等人,2025(https://arxiv.org/html/2605.26340#bib.bib28))压力测试实验、复现和执行可靠性。AIRS-Bench(Lupidi等人,2026(https://arxiv.org/html/2605.26340#bib.bib20))测试智能体在来自已发表ML论文的任务上的表现。FIRE-Bench(Wang等人,2026(https://arxiv.org/html/2605.26340#bib.bib30))评估智能体是否能通过全周期实验重新发现已有发现。然而,大多数基准衡量的是发现性能——系统能否产生有竞争力的解决方案——而不是由此产生的主张是否实际得到证据支持。

#### 科学完整性与溯源。
当前的自主研究系统产生具有不同程度可追溯性的书面输出:直接稿件起草(LLM从智能体输出生成散文)(Lu等人,2024(https://arxiv.org/html/2605.26340#bib.bib19);Jansen等人,2025(https://arxiv.org/html/2605.26340#bib.bib9);Tang等人,2025(https://arxiv.org/html/2605.26340#bib.bib29)),以及审稿感知修订(审稿人反馈精炼稿件)(Yamada等人,2025(https://arxiv.org/html/2605.26340#bib.bib33))。这两种方法都能产生流畅的论文,但缺乏确保报告数字可追溯到特定执行工件的机制,从而掩盖了断裂的证据链。先前关于引用可验证性的工作(Liu等人,2023a)...

相似文章

EVE-Agent: 可验证证据的自我进化智能体

arXiv cs.AI

EVE-Agent 提出了一个自我进化搜索智能体框架,通过生成问题、答案和证据片段,并基于证据的边际准确性增益进行训练,确保证据可验证性。这提高了基于依据的正确性,且无需人工标注。

部分证据基准:对智能体系统中授权受限证据的评估

arXiv cs.AI

本文提出了 Partial-Evidence-Bench,这是一个用于衡量智能体 AI 系统中“授权受限证据”失败模式的确定性基准测试。它评估模型在处理访问控制限制可见性的任务时的表现,重点考察其识别并报告信息不完整的能力,而非悄无声息地生成看似完整实则遗漏关键信息的回答。

ForeSci:评估LLM代理的前瞻性AI研究判断

arXiv cs.AI

介绍了ForeSci,一个时间控制基准,用于评估LLM代理是否能够基于历史证据做出前瞻性研究判断。它包含跨越四个AI领域的500个任务,结果表明显式的证据组织提高了可追溯性,但揭示了反复出现的证据-决策解耦。