ScientistOne：通过 Chain-of-Evidence 实现人类级自主研究

arXiv cs.AI 2026/05/27 04:00 论文

autonomous-research chain-of-evidence verifiability ai-safety research-agents integrity-audit

摘要

ScientistOne 引入了 Chain-of-Evidence，这是一个面向自主研究代理的可验证性框架，确保每个声明都可追溯到证据来源。该框架实现了零幻觉引用、完美的分数验证，并在 75 篇论文中达到了最高的方法-代码对齐度，同时在五个前沿研究任务上达到或超过了人类专家水平。

arXiv:2605.26340v1 公告类型：新摘要：自主研究代理能够生成有竞争力的解决方案和专业水准的稿件，但其输出中存在着表面评估无法检测的可验证性失败：捏造的引用、不可复现的分数，以及与方法实现不符的描述。我们通过三项贡献解决这一问题。首先，Chain-of-Evidence（CoE），一个要求每个声明都可追溯到其证据来源的可验证性框架。其次，ScientistOne，一个端到端的自主研究系统，通过在文献综述、解决方案发现和论文写作过程中保持证据链的构建。第三，CoE Audit，一种事后审计方法，其四项完整性检查——分数验证、规范违反、引用验证和方法-代码对齐——统一应用于所有系统。在涵盖五个系统和五个前沿研究任务的 75 篇论文中，每个基线都至少表现出一种系统性失败模式：幻觉引用率高达 21%，分数验证通过率低至 42%，方法-代码对齐度在 20% 到 80% 之间。ScientistOne 实现了零幻觉引用（0/337）、完美的分数验证（12/12）和最高的方法-代码对齐度（14/15），同时在所有五个任务上达到或超过了人类专家表现。ScientistOne 进一步泛化到六个额外任务，涵盖医学成像、细粒度识别、3D 感知和语言建模，在 Parameter Golf 上达到最先进水平，并在基线上完全失败的 MLE-Bench 任务中获得金牌。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:04

# ScientistOne：通过证据链迈向人类水平的自主研究  
来源：https://arxiv.org/html/2605.26340 \\pdftrailerid redacted\\correspondingauthoraffil0affil0affiliationtext:Google Cloud AI Research Bhavana Dalvi MishraJiefeng ChenChun\-Liang LiPalash GoyalMihir ParmarYiwen SongYale SongRajarishi SinhaParthasarathy RanganathanBurak GokturkJinsung YoonTomas Pfister  

###### 摘要  
自主研究智能体能够生成有竞争力的解决方案和专业的文稿，但其输出可能存在可验证性失败——这些失败无法被仅评估表面呈现而非证据依据的评测所察觉：捏造的引用、不可复现的分数，以及与方法描述脱节的实现。这些失败有一个共同根源：现有评估协议均不审计主张是否有依据，也没有任何现有的自主研究系统被设计为将主张回溯到证据。我们通过三项贡献来填补这一空白。首先，**证据链（Chain-of-Evidence, CoE）**，一个可验证性框架，要求每项主张都能追溯到其证据来源。其次，ScientistOne，一个端到端的自主研究系统，在文献综述、方案发现和论文撰写的整个过程中，通过构造维护证据链。第三，**CoE完整性审计（CoE Integrity Audit）**，一种事后审计，其四项完整性检查——分数验证、规格违规、参考文献验证和方法-代码对齐——统一适用于所有系统。在跨越五个系统和五项前沿研究任务的75篇论文中，我们发现每个基线都存在至少一种系统性失败模式：幻觉引用率高达21%，分数验证通过率低至42%，方法-代码对齐在20%到80%之间。ScientistOne是唯一实现零幻觉引用（0/337条参考文献条目）、完美分数验证（12/12）和方法-代码对齐最高（14/15）的系统，同时在所有五项任务上匹配或超越人类专家表现。我们进一步证明ScientistOne能够泛化到涵盖医学影像、细粒度识别、3D感知和参数约束语言建模的另外六项任务，在Parameter Golf上达到最先进水平，并在基线完全失败的MLE-Bench任务上获得金牌。项目网站：https://scientist-one.github.io/  

###### 摘要  
自主研究智能体能够生成有竞争力的解决方案和专业的文稿，但其输出可能存在可验证性失败——这些失败无法被仅评估表面呈现而非证据依据的评测所察觉：捏造的引用、不可复现的分数，以及与方法描述脱节的实现。这些失败有一个共同根源：现有评估协议均不审计主张是否有依据，也没有任何现有的自主研究系统被设计为将主张回溯到证据。我们通过三项贡献来填补这一空白。首先，**证据链（Chain-of-Evidence, CoE）**，一个可验证性框架，要求每项主张都能追溯到其证据来源。其次，ScientistOne，一个端到端的自主研究系统，在文献综述、方案发现和论文撰写的整个过程中，通过构造维护证据链。第三，**CoE完整性审计（CoE Integrity Audit）**，一种事后审计，其四项完整性检查——分数验证、规格违规、参考文献验证和方法-代码对齐——统一适用于所有系统。在跨越五个系统和五项前沿研究任务的75篇论文中，我们发现每个基线都存在至少一种系统性失败模式：幻觉引用率高达21%，分数验证通过率低至42%，方法-代码对齐在20%到80%之间。ScientistOne是唯一实现零幻觉引用（0/337条参考文献条目）、完美分数验证（12/12）和方法-代码对齐最高（14/15）的系统，同时在所有五项任务上匹配或超越人类专家表现。我们进一步证明ScientistOne能够泛化到涵盖医学影像、细粒度识别、3D感知和参数约束语言建模的另外六项任务，在Parameter Golf上达到最先进水平，并在基线完全失败的MLE-Bench任务上获得金牌。项目网站：https://scientist-one.github.io/  
**脚注：**这些作者对本文贡献相等。

## 1 引言

大型语言模型正越来越多地被部署为自主智能体，而非孤立的助手，它们执行整个研究流程——从文献综述和假设生成，到实验设计和执行，再到论文撰写（Lu等人，2024（https://arxiv.org/html/2605.26340#bib.bib19）；Yamada等人，2025（https://arxiv.org/html/2605.26340#bib.bib33）；Weng等人，2025（https://arxiv.org/html/2605.26340#bib.bib31）；Tang等人，2025（https://arxiv.org/html/2605.26340#bib.bib29）；Schmidgall等人，2025（https://arxiv.org/html/2605.26340#bib.bib27）；Jansen等人，2025（https://arxiv.org/html/2605.26340#bib.bib9））。在系统优化任务上，这些智能体现已能产生与人类专家竞争的解决方案（Cheng等人，2025b（https://arxiv.org/html/2605.26340#bib.bib5）；Novikov等人，2025（https://arxiv.org/html/2605.26340#bib.bib23）），端到端流水线已生成被同行评审研讨会接受的论文（Yamada等人，2025（https://arxiv.org/html/2605.26340#bib.bib33））。由此产生的工件——代码、实验结果和专业的文稿——仅凭表面质量越来越难以与人类撰写的研究区分。

这种快速能力增长暴露了**生成**与**验证**之间的结构性张力。自主研究系统作为多阶段流水线运行，每个阶段都消耗上一阶段的输出：文献摘要影响假设，假设决定实验，实验结果输入到论文。在这种架构中，任何阶段引入的错误不仅会被保留，还会被放大——一个有缺陷的摘要可能使实验设计产生偏差，一个误解的结果可能贯穿到一篇看似内部一致的论文中，恰恰因为同一错误在各章节中一致反映。风险随着轨迹长度增加而增长：智能体难以跟踪不断扩展的上下文（Liu等人，2024（https://arxiv.org/html/2605.26340#bib.bib14），2023b（https://arxiv.org/html/2605.26340#bib.bib17）），会产生幻觉，并从原始目标漂移。这个问题因语言模型处理证据时的根本限制而加剧：生成的文本难以对照来源进行验证（Liu等人，2023a（https://arxiv.org/html/2605.26340#bib.bib13）），事实主张会偏离其依据（Min等人，2023（https://arxiv.org/html/2605.26340#bib.bib22）），科学引用经常不准确或捏造（Press等人，2024（https://arxiv.org/html/2605.26340#bib.bib25））。在自主流水线中，这些失败模式相互作用并复合——模型可能夸大方法描述，使其超出代码实际实现的内容；报告在基准自身评估器中无法复现的分数；从参数化记忆而非检索中填充参考文献，同时生成读起来技术上合理的文本。现有的评估协议，无论是自动评审分数还是基准排行榜，都评估表面呈现（即论文读起来如何）和流程完成度，但不检查单个主张是否可追溯到支持证据。这种可验证性差距并非假设。

在对来自五个自主研究系统、跨越五个基准任务的75篇论文的系统性审计中，我们发现**所有基线系统都存在证据链失败**：幻觉引用（对应任何真实出版物的引用）高达所有参考文献条目的21%；方法章节描述了提交代码中没有的算法；不可复现的分数；以及利用评估器而非解决任务的解决方案代码。这些失败有一个共同根源：**没有现有的评估协议审计主张是否被支持，也没有任何现有的自主研究系统被设计为将主张回溯到证据。** 我们通过**证据链（Chain-of-Evidence, CoE）**来解决这个问题，这是一个针对AI驱动研究的可验证性框架。正如ACID¹¹¹原子性、一致性、隔离性、持久性（Härder和Reuter，1983（https://arxiv.org/html/2605.26340#bib.bib7））定义了“可靠”对于数据库事务的含义，CoE定义了“可验证”对于研究主张的含义：**每项主张必须通过记录的证据链，追溯到其依据来源。**

我们以三种方式实例化CoE：
1. **CoE标准（§3（https://arxiv.org/html/2605.26340#S3））**：一个主张分类（引用、数值、方法论、结论）以及每种类型所需的证据链结构。
2. **ScientistOne（§4（https://arxiv.org/html/2605.26340#S4））**：一个端到端的自主研究系统，其流水线——问题调研器、发现引擎和带声明验证器的论文撰写器——被设计为原生满足CoE。问题调研器每个主题最多阅读100篇全文PDF，生成有依据的实验简报。声明验证器在最终论文生成前，检查草稿中的每项主张是否与其声明的证据来源一致。
3. **CoE完整性审计（§5（https://arxiv.org/html/2605.26340#S5））**：一种事后审计，通过四项完整性检查——分数验证、规格违规、参考文献验证和方法-代码对齐——来验证AI驱动的研究论文，针对最具破坏性的证据链失败。

我们将CoE完整性审计应用于来自五个系统、跨越ADRS（Cheng等人，2025b（https://arxiv.org/html/2605.26340#bib.bib5）；Liu等人，2026c（https://arxiv.org/html/2605.26340#bib.bib16））（§6（https://arxiv.org/html/2605.26340#S6））中五项前沿系统研究任务的各15篇论文。每个基线都至少有一项完整性检查失败。ScientistOne实现了零幻觉引用（0/337条参考文献条目）、完美分数验证（12/12）和方法-代码对齐最高（14/15），同时在所有五项任务上匹配或超越人类专家解算器表现。我们进一步证明ScientistOne能够泛化到涵盖医学影像、细粒度识别、3D感知和参数约束语言建模的另外六项任务，在Parameter Golf上达到最先进水平，并在基线完全失败的MLE-Bench任务上获得金牌。

## 2 相关工作

#### 自主研究智能体。
端到端自主研究系统已迅速从受约束的ML模板扩展到多阶段流水线，协调文献依据、假设生成、实验和论文撰写。AI Scientist（Lu等人，2024（https://arxiv.org/html/2605.26340#bib.bib19））开创了端到端自动化，但运行在固定的ML模板上，频繁出现撰写幻觉且论文质量有限。AI Scientist-v2（Yamada等人，2025（https://arxiv.org/html/2605.26340#bib.bib33））通过实验分支上的最佳优先树搜索（BFTS）和审稿感知报告推进了这一方向，达到了研讨会级别的论文质量。并发系统以不同方向扩展了流水线。在构思方面，PiFlow（Pu等人，2025（https://arxiv.org/html/2605.26340#bib.bib26））通过信息论原则选择引导假设探索，CodeScientist（Jansen等人，2025（https://arxiv.org/html/2605.26340#bib.bib9））将构思共同基于文献和代码。Curie（Kon等人，2025a（https://arxiv.org/html/2605.26340#bib.bib10））通过与我们I1分数验证类似的可复现性检查来验证实验执行，尽管它不审计撰写的声明是否如实反映验证结果。Agent Laboratory（Schmidgall等人，2025（https://arxiv.org/html/2605.26340#bib.bib27））将人工把关引入流水线。AlphaEvolve（Novikov等人，2025（https://arxiv.org/html/2605.26340#bib.bib23））将进化搜索应用于算法优化，EvoScientist（Lyu等人，2026（https://arxiv.org/html/2605.26340#bib.bib21））使用多智能体自我进化进行端到端发现。我们评估AI Scientist-v2以及另外三个系统——AutoResearchClaw（Liu等人，2026a（https://arxiv.org/html/2605.26340#bib.bib12））、DeepScientist（Weng等人，2025（https://arxiv.org/html/2605.26340#bib.bib31））和AI-Researcher（Tang等人，2025（https://arxiv.org/html/2605.26340#bib.bib29））——其架构选择产生了不同的完整性概况（§6.1（https://arxiv.org/html/2605.26340#S6.SS1））。尽管架构多样，一个共同模式显现：生成和执行能力增长快于验证和溯源机制，因此那些能产生专业文稿的系统可能仍然包含断裂的证据链。ScientistOne针对这一差距——我们并非推进自主性边界，而是专注于使自主研究输出可验证。

#### LLM驱动的优化与基准。
ADRS基准（Cheng等人，2025b（https://arxiv.org/html/2605.26340#bib.bib5））收集了真实的前沿计算机系统研究问题，并作为我们的主要评估测试平台。EvoX（Liu等人，2026b（https://arxiv.org/html/2605.26340#bib.bib15））和AdaEvolve（Cemri等人，2026（https://arxiv.org/html/2605.26340#bib.bib1））通过专注于算法发现和实现优化而不涉及文献依据或论文撰写，在ADRS上取得了强劲结果。更广泛的评估资源近期大量涌现。Auto-Bench（Chen等人，2025（https://arxiv.org/html/2605.26340#bib.bib3））、ResearchBench（Liu等人，2025（https://arxiv.org/html/2605.26340#bib.bib18））和ResearcherBench（Xu等人，2025（https://arxiv.org/html/2605.26340#bib.bib32））评估研究相关能力，如因果推理、假设生成和研究问题回答。MLAgentBench（Huang等人，2023（https://arxiv.org/html/2605.26340#bib.bib8））、EXP-Bench（Kon等人，2025b（https://arxiv.org/html/2605.26340#bib.bib11））和PaperBench（Starace等人，2025（https://arxiv.org/html/2605.26340#bib.bib28））压力测试实验、复现和执行可靠性。AIRS-Bench（Lupidi等人，2026（https://arxiv.org/html/2605.26340#bib.bib20））测试智能体在来自已发表ML论文的任务上的表现。FIRE-Bench（Wang等人，2026（https://arxiv.org/html/2605.26340#bib.bib30））评估智能体是否能通过全周期实验重新发现已有发现。然而，大多数基准衡量的是发现性能——系统能否产生有竞争力的解决方案——而不是由此产生的主张是否实际得到证据支持。

#### 科学完整性与溯源。
当前的自主研究系统产生具有不同程度可追溯性的书面输出：直接稿件起草（LLM从智能体输出生成散文）（Lu等人，2024（https://arxiv.org/html/2605.26340#bib.bib19）；Jansen等人，2025（https://arxiv.org/html/2605.26340#bib.bib9）；Tang等人，2025（https://arxiv.org/html/2605.26340#bib.bib29）），以及审稿感知修订（审稿人反馈精炼稿件）（Yamada等人，2025（https://arxiv.org/html/2605.26340#bib.bib33））。这两种方法都能产生流畅的论文，但缺乏确保报告数字可追溯到特定执行工件的机制，从而掩盖了断裂的证据链。先前关于引用可验证性的工作（Liu等人，2023a）...

ScientistOne：通过 Chain-of-Evidence 实现人类级自主研究

相似文章

AI科学家何时应停止？面向自主发现的可验证实验引导与拒绝机制

EVE-Agent: 可验证证据的自我进化智能体

基于证据链评估的校准式选择性事实核查

AutoResearchClaw：自我强化的自主研究与人机协作

ToE：一种分层可解释的声明验证框架，具有动态多源证据检索与聚合

提交意见反馈