通过研究工作台将AI科学家的研究综合与验证外化
摘要
本文介绍了Xcientist,这是一个研究工作台,它将AI驱动的科学研究综合与验证外化为可检查、受合同约束的过程,以确保可问责性和可追溯性。
查看缓存全文
缓存时间: 2026/06/18 03:55
论文页面 - 通过研究框架将AI科学家的研究综合与验证过程外部化
来源:https://huggingface.co/papers/2606.18874 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
Xcientist通过创建持久化工件来追踪从问题定义到机制验证与修订的完整研究过程,从而实现透明且可问责的AI驱动科学研究。
AI系统能够日益自动化科研工作流程,但连接既有证据、生成的想法、实验与最终结论的推理过程往往隐含在模型内部。本文提出 Xcientist,一个研究框架,将研究综合与实验验证外部化为可检查的、契约治理的过程。Xcientist 将文献证据、想法状态、实施方案、消融记录和修复轨迹组织为持久化研究工件,使得生成的机制能够在不丢失其证据基础的情况下被具体化、执行、测试和修订。我们识别出自动化研究中的一种失败模式——声明漂移,即可运行的工件不再支持最初声称的机制。在免训练记忆系统、图结构交通预测和多尺度物理信息神经网络中,Xcientist 保留了从问题定义到机制设计、验证与有限修订的可追溯轨迹。这些结果表明,AI科学家不仅应根据其最终工件来评估,还应看其综合与验证过程是否保持可归因、可检查且符合科学问责原则。
查看 arXiv 页面 (https://arxiv.org/abs/2606.18874)查看 PDF (https://arxiv.org/pdf/2606.18874)项目页面 (https://kotohanon.github.io/Xcientist/)GitHub12 (https://github.com/OpenDFM/Xcientist)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18874)
在你的agent中获取这篇论文:
hf papers read 2606.18874
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.18874 即可从本页链接。
引用此论文的数据集0
无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.18874 即可从本页链接。
引用此论文的Space0
无Space关联此论文
在Space README.md 中引用 arxiv.org/abs/2606.18874 即可从本页链接。
包含此论文的收藏0
无收藏包含此论文
将本论文添加到一个收藏即可从本页链接。
相似文章
HarnessX:可组合、自适应且可演进的智能体夹具工坊
HarnessX 是一个为可组合、自适应且可演进的人工智能智能体夹具打造的工坊,它利用组合原语和轨迹驱动演化来提升智能体性能。在五项基准测试中,它平均提升了 +14.5%(最高达 +44.0%),表明运行时接口演化是模型规模扩展之外的一个互补杠杆。
迈向AI研究的端到端自动化
一篇介绍AI科学家(The AI Scientist)的论文,该系统自动化了从想法生成到同行评审的整个研究生命周期,展示了人工智能在科学贡献方面日益增长的能力。
@dair_ai: // 状态外部化框架 // 关于如何有效构建代理和框架的一种新范式正在兴起。如果……
Harness-1 引入了一种状态外部化框架,将常规记账与搜索代理中的策略决策分离,使一个 20B 模型在多个基准测试中超越更大的前沿搜索器。
@adaption_ai: 介绍 AutoScientist。大多数模型训练在顶尖实验室之外都会失败。AutoScientist 自动执行完整的研究流……
Adaption AI 推出了 AutoScientist,这是一款能够自动化完整研究循环的工具,旨在让顶尖实验室之外的模型训练变得更加触手可及。
ScientistOne:通过 Chain-of-Evidence 实现人类级自主研究
ScientistOne 引入了 Chain-of-Evidence,这是一个面向自主研究代理的可验证性框架,确保每个声明都可追溯到证据来源。该框架实现了零幻觉引用、完美的分数验证,并在 75 篇论文中达到了最高的方法-代码对齐度,同时在五个前沿研究任务上达到或超过了人类专家水平。