通过研究工作台将AI科学家的研究综合与验证外化

Hugging Face Daily Papers 论文

摘要

本文介绍了Xcientist,这是一个研究工作台,它将AI驱动的科学研究综合与验证外化为可检查、受合同约束的过程,以确保可问责性和可追溯性。

AI系统日益能够自动化科学工作流程,但连接先前证据、生成的想法、实验和最终结论的推理过程往往仍隐含在模型推理内部。本文介绍了Xcientist,这是一个研究工作台,它将研究综合与实验验证外化为可检查、受合同约束的过程。Xcientist将文献证据、思想状态、实现计划、消融记录和修复轨迹组织为持久的研究工件,使得生成的机制能够在不失去其证据基础的情况下被验证、执行、测试和修订。我们识别出“主张漂移”作为自动化研究的一种失败模式,即可运行的工件不再支持最初声称的机制。在免训练记忆系统、图结构交通预测和多尺度物理信息神经网络中,Xcientist保留了从问题设定到机制设计、验证和有界修订的可追溯轨迹。这些结果表明,AI科学家不仅应根据其最终工件进行评估,还应看其综合与验证过程是否具备可归因性、可检查性和科学可问责性。
查看原文
查看缓存全文

缓存时间: 2026/06/18 03:55

论文页面 - 通过研究框架将AI科学家的研究综合与验证过程外部化

来源:https://huggingface.co/papers/2606.18874 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

Xcientist通过创建持久化工件来追踪从问题定义到机制验证与修订的完整研究过程,从而实现透明且可问责的AI驱动科学研究。

AI系统能够日益自动化科研工作流程,但连接既有证据、生成的想法、实验与最终结论的推理过程往往隐含在模型内部。本文提出 Xcientist,一个研究框架,将研究综合实验验证外部化为可检查的、契约治理的过程。Xcientist 将文献证据想法状态实施方案消融记录修复轨迹组织为持久化研究工件,使得生成的机制能够在不丢失其证据基础的情况下被具体化、执行、测试和修订。我们识别出自动化研究中的一种失败模式——声明漂移,即可运行的工件不再支持最初声称的机制。在免训练记忆系统图结构交通预测多尺度物理信息神经网络中,Xcientist 保留了从问题定义到机制设计、验证与有限修订的可追溯轨迹。这些结果表明,AI科学家不仅应根据其最终工件来评估,还应看其综合与验证过程是否保持可归因、可检查且符合科学问责原则。

查看 arXiv 页面 (https://arxiv.org/abs/2606.18874)查看 PDF (https://arxiv.org/pdf/2606.18874)项目页面 (https://kotohanon.github.io/Xcientist/)GitHub12 (https://github.com/OpenDFM/Xcientist)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18874)

在你的agent中获取这篇论文:

hf papers read 2606.18874

没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.18874 即可从本页链接。

引用此论文的数据集0

无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.18874 即可从本页链接。

引用此论文的Space0

无Space关联此论文

在Space README.md 中引用 arxiv.org/abs/2606.18874 即可从本页链接。

包含此论文的收藏0

无收藏包含此论文

将本论文添加到一个收藏即可从本页链接。

相似文章

HarnessX:可组合、自适应且可演进的智能体夹具工坊

Hugging Face Daily Papers

HarnessX 是一个为可组合、自适应且可演进的人工智能智能体夹具打造的工坊,它利用组合原语和轨迹驱动演化来提升智能体性能。在五项基准测试中,它平均提升了 +14.5%(最高达 +44.0%),表明运行时接口演化是模型规模扩展之外的一个互补杠杆。

迈向AI研究的端到端自动化

arXiv cs.AI

一篇介绍AI科学家(The AI Scientist)的论文,该系统自动化了从想法生成到同行评审的整个研究生命周期,展示了人工智能在科学贡献方面日益增长的能力。

ScientistOne:通过 Chain-of-Evidence 实现人类级自主研究

arXiv cs.AI

ScientistOne 引入了 Chain-of-Evidence,这是一个面向自主研究代理的可验证性框架,确保每个声明都可追溯到证据来源。该框架实现了零幻觉引用、完美的分数验证,并在 75 篇论文中达到了最高的方法-代码对齐度,同时在五个前沿研究任务上达到或超过了人类专家水平。