@dair_ai: 值得阅读的新论文.(收藏)自主研究系统通常通过精心挑选的胜利来证明自己,人类…
摘要
FARS是一个全自动研究系统,使用阶段特定的AI代理来处理构思、规划、实验和写作,在其首次公开部署中产生了166篇完整的研究论文,涵盖67个AI/ML主题。
查看缓存全文
缓存时间: 2026/07/01 22:14
值得阅读的新论文。
(收藏它)
自主研究系统通常依靠精心挑选的成功案例、人为设定的主题或少量预设任务来证明自身能力。
FARS 则不同,它在规模上运行完整的循环流程。不同阶段的智能体分别负责构思、规划、实验和写作,共享一个工作空间,记录提案、代码、日志、结果和手稿。
其首次公开部署生成了 166 篇完整的论文,涵盖 67 个细分的 AI/ML 主题,并将失败案例也保留在语料库中,而非只展示精选的成功案例。
为何重要。
来自 140 篇论文的 282 份自愿者评审提供了诚实的评估。FARS 能够产生值得评审的作品,而同一批评审也揭示了在范围狭窄、方法论和完整性方面反复出现的失败模式。
论文:https://arxiv.org/abs/2606.31651
在我们的学院中学习如何构建有效的 AI 智能体:https://academy.dair.ai
FARS:一种大规模部署的完全自动化研究系统
来源:https://arxiv.org/html/2606.31651 作者 汤琼†,胡向昆†,刘向阳†,陈亦然†,邵云帆†Analemma{qtang,xkhu,xyliu,yrchen,yfshao}@analemma.ai 审稿人‡\ddagger Bobo Li1, Changze Lv2, Cheng Xu3, Chengsong Huang4, Chunyang Li5, Dizhan Xue6, Hao Bai7, Haodong Duan8, Hengquan Guo9, Hongyang He10, Hongyi Chen11, Hui Shen12, Jiahao Yuan13, Jiankai Sun14, Jikang Cheng15, Jinfeng Xu16, Jingqi Tong2,17, Jingye Chen5, Jinxiu Liu18, Jixuan Leng11, Junchi Yu19, Kaixun Jiang2, Kun Xiang20, Kunpeng Yao21, Lang Feng22, Liangqi Yuan23, Longsen Gao24, Meng Li25, Qi Jia26, Qiushi Sun16, Shengyuan Ding2, Shizhan Gong27, Siru Zhong28, Terry Jingchen Zhang29, Tianle Gu30, Tianyi Liang17,31, Weijie Liu15, Weikai Yang28, Weizhi Fei30, Xiangkun Hu32, Xiangyang Liu32, Xin Wang33, Xinpeng Liu34, Xuanwen Ding2, Yihong Tang35,36, Yuanli Wang37, Yukun Jiang38, Yuming Yang2, Zhengbao He34, Zhikai Chen39, Zhikun Xu40, Zhuang Li41, Zihao Huang8, Anonymous, Anonymous1新加坡国立大学,2复旦大学,3都柏林大学,4圣路易斯华盛顿大学,5香港科技大学,6中国科学院自动化研究所,7伊利诺伊大学厄巴纳-香槟分校,8字节跳动,9上海科技大学,10华威大学,11卡内基梅隆大学,12密歇根大学安娜堡分校,13华东师范大学,14斯坦福大学,15腾讯,16香港大学,17上海创新研究院,18Nex-AGI团队,19牛津大学,20中山大学,21利兹大学,22南洋理工大学,23普渡大学,24新墨西哥大学,25南京大学,26上海人工智能实验室,27香港中文大学,28香港科技大学(广州),29Vector Institute,30清华大学,31OpenMOSS,32Analemma,33俄亥俄州立大学,34上海交通大学,35麦吉尔大学,36ServiceNow AI Research,37波士顿大学,38CISPA - 亥姆霍兹信息安全中心,39密歇根州立大学,40亚利桑那州立大学,41皇家墨尔本理工大学
摘要
近期的自动化研究系统表明,语言模型智能体能够生成假设、运行实验并撰写完整手稿,但现有证据大多来自选定的例子、人为设定的主题或少量预定义的研究任务。我们提出了 FARS(完全自动化研究系统),一个全自动的 AI-for-AI 研究系统,旨在跨研究主题大规模运行。FARS 通过构思、规划、实验和写作自主生成并推进项目,使用阶段特定智能体,通过一个共享工作空间进行协调,记录提案、代码、日志、结果和手稿。在首次公开部署中,FARS 生成了 166 篇完整的研究论文,涵盖 67 个细分的 AI/ML 主题,同时保留了中间产物作为可审计的语料库,而非一组精选的成功案例。我们通过来自志愿审稿人的 282 份结构化评审对这份语料库进行了评估,涵盖 140 篇论文,包括总体评分、子项分数、完整性检查以及 LLM 使用披露。评审表明,FARS 能够在大规模公开部署中产生值得评审、偶尔甚至具有较强价值的 AI/ML 研究产物,同时也暴露了在实验范围狭窄、方法论局限性和完整性方面反复出现的失败模式。
22脚注:同等贡献;人类作者按名字字母顺序排列。33脚注:提及的审稿人按字母顺序列出。
1 引言
近来自主研究系统的进展表明,语言模型智能体现在能够执行科学工作流程的相当大一部分,包括文献综述、假设生成、实验执行、评审和论文撰写(Asai 等人, 2024 (https://arxiv.org/html/2606.31651#bib.bib10);Baek 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib9);Schmidgall 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib5);Li 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib26))。诸如 The AI Scientist(Lu 等人, 2024 (https://arxiv.org/html/2606.31651#bib.bib1))、CycleResearcher(Weng 等人, 2025a (https://arxiv.org/html/2606.31651#bib.bib3))、Zochi(Intology, 2025 (https://arxiv.org/html/2606.31651#bib.bib4))、AI Scientist v2(Yamada 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib2))、AIGS(Liu 等人, 2024 (https://arxiv.org/html/2606.31651#bib.bib6))和 AI-Researcher(Tang 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib29))展示了越来越完整的研究流程,而 DeepScientist(Weng 等人, 2025b (https://arxiv.org/html/2606.31651#bib.bib30))表明,自主搜索可以在人类定义的前沿任务上取得可衡量的进展。然而,现有证据的范围仍然有限,主要依赖于选定的演示、人为设定的主题、用户提供的参考文献、狭义定义的最先进改进目标和基准任务。这些设置提供了关于自主研究智能体能够做什么的有用信号,但它们尚未展示这些系统在持续运行、大规模选择和执行工作以及产生大量输出时的行为。这留下了一个核心系统问题:当一个全自动 AI 研究系统持续大规模部署时会发生什么,以及应该如何评估其输出?
我们介绍了 FARS,一个端到端的 AI 研究系统,能够大规模运行。它旨在自主执行完整的研究工作流程,在执行过程中无需人工干预。FARS 的指导原则是高效可靠地扩展知识前沿。在这种观点下,自动化研究的单位是一个聚焦的贡献:一个清晰阐述的假设,搭配一个实证或理论验证尝试。范围狭窄的发现和负面结果,只要可观察、有充分动机且可验证,就仍然有价值。在当前实例化中,FARS 应用于 AI 研究,将其定位在一个新兴的 AI-for-AI 研究范式中。AI 研究为自主研究系统提供了一个实用的部署领域:许多假设可以转化为可执行代码,并针对共享基准进行评估,而 AI 的进步具有很高的内在价值,也能加速其他领域的研究。
FARS 将研究组织为四个顺序阶段,即构思、规划、实验和写作,通过一个共享工作空间进行协调,该工作空间既作为持久项目记忆,也作为可审计的产物存储。在首次连续公开部署中,FARS 生成了 166 篇完整论文,涵盖 67 个细分的 AI/ML 主题。这种规模与之前的端到端系统形成对比,后者的评估通常依赖于选定的论文、研讨会投稿、人为设定的基准任务或少量预定义的前沿任务。我们的 FARS 部署被设计为一个实时的大规模实验:FARS 的输出因主题、方法和质量而异,因此通过少量选定的例子进行评估必然有限。因此,我们保留了成功、弱输出、负面结果、执行产物和失败模式以供检查,而不是展示一个精选样本,同时外部传播需要人工审查和明确标注。
我们根据来自精心招募的志愿审稿人的 282 份结构化评审,对本次公开部署期间产生的论文进行了评估,这些评审覆盖了 140 篇生成论文。111评审周期从 2026 年 3 月 21 日持续到 4 月 12 日;166 篇生成论文中有 140 篇至少收到一份完整评审,其余 26 篇未获评审,因此被排除在统计之外。评审包括总体评分、对合理性、呈现和贡献的子项分数、审稿人置信度、完整性检查以及 LLM 辅助评审的披露。结果揭示了显著的质量差异:FARS 能够在公开部署规模上产生值得评审、有时甚至具有较强价值的研究产物,而反复出现的弱点包括实验范围狭窄、方法论局限性和完整性问题。这些发现表明,可扩展的自动化研究已经可行,而其科学贡献的可靠性仍受制于贡献的实质性价值、实验的充分性以及写作的忠实性。我们的贡献如下:
- • FARS,一个完全自动化的研究系统,通过专用的构思、规划、实验和写作智能体,由可审计的共享工作空间协调,将研究方向转化为完整论文。
- • FARS 的一次公开部署,生成了 166 篇完整论文,涵盖 67 个细分的 AI/ML 主题,同时保留了可审计的中间产物语料库,包括假设、计划、代码、日志、结果和手稿。
- • 对部署输出的大规模人工评审,衡量了论文质量、反复出现的失败模式,以及可扩展生成与可靠科学贡献之间的差距。
2 相关工作
自主研究系统。
自主研究系统已从协助孤立的研究任务发展到自动化科学工作流程的更大一部分。AI Scientist(Lu 等人, 2024 (https://arxiv.org/html/2606.31651#bib.bib1))引入了用于想法生成、代码生成、实验、可视化、论文撰写和自动评审的端到端流程,而 AI Scientist v2(Yamada 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib2))减少了模板依赖,并展示了达到研讨会水平的 AI 生成手稿。随后的系统通过基于基准的自主科学创新(Tang 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib29))、目标导向的前沿改进(Weng 等人, 2025b (https://arxiv.org/html/2606.31651#bib.bib30))、基于证据的主张验证(Meng 等人, 2026 (https://arxiv.org/html/2606.31651#bib.bib49))、自动化研究-评审循环(Weng 等人, 2025a (https://arxiv.org/html/2606.31651#bib.bib3))、基于证伪的发现(Liu 等人, 2024 (https://arxiv.org/html/2606.31651#bib.bib6))以及经过人工验证的高自主性科学发现(Intology, 2025 (https://arxiv.org/html/2606.31651#bib.bib4))扩展了这一方向。总体而言,这些工作表明智能体可以自动化研究生命周期的大部分,但它们通常是在人为划定的领域、任务、模板、基准语料库、起始方法或提交与验证程序中进行评估。FARS 的不同之处在于,它将自动化 AI 研究视为一个完全自主研究项目推进的部署系统:从想法生成到规划、实验和论文撰写,每个项目在执行过程中无需人工干预。
大规模自动化研究。
自动化研究中的规模可以指大型搜索空间、大量实验或大量生成的产物。DeepScientist(Weng 等人, 2025b (https://arxiv.org/html/2606.31651#bib.bib30))报告了数千个生成的想法和超过一千次实验验证,但将这些搜索集中在三个从人类 SOTA 方法初始化的前沿任务上。AI-Researcher(Tang 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib29))评估了 22 篇精选的基准论文及其开放变体,但该基准是围绕选定的由人类撰写的论文、参考文献和数据集构建的。AutoSOTA(Li 等人, 2026 (https://arxiv.org/html/2606.31651#bib.bib24))将近期顶级 AI 论文映射到可执行仓库,并将其优化为改进的模型,而 CodeScientist(Jansen 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib27))运行了数百次基于代码的实验,返回了 19 个候选发现,其中 6 个通过了外部和内部验证。Robin(Ghareeb 等人, 2026 (https://arxiv.org/html/2606.31651#bib.bib23))展示了实验生物学中的迭代实验室参与发现工作流程。这些系统在结构化设置中展示了搜索、优化和实证评估方面的规模。FARS 则通过想法到论文流程的公开部署来审视规模,将完整的论文生成与保留的中间产物结合起来。
AI 生成研究的评估。
评估仍然困难,因为研究质量取决于合理性、贡献、证据和完整性,而不仅仅是流畅的呈现。LLM-as-a-Judge 方法(Zheng 等人, 2023 (https://arxiv.org/html/2606.31651#bib.bib13); Gu 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib14))扩展成本低廉,但可能遗漏特定领域的弱点;相关研究研究了 LLM 反馈与人类评审之间的重叠(Liang 等人, 2023 (https://arxiv.org/html/2606.31651#bib.bib15)),并制定了标准化的自动评审协议(Yu 等人, 2024 (https://arxiv.org/html/2606.31651#bib.bib16))。仅靠想法质量也不够:LLM 生成的想法可能被评为新颖,但可行性较差(Si 等人, 2024 (https://arxiv.org/html/2606.31651#bib.bib17)),并且当想法被实现时,这种构思-执行差距会扩大(Si 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib33))。诸如 MLAgentBench(Huang 等人, 2024 (https://arxiv.org/html/2606.31651#bib.bib47))、EXP-Bench(Kon 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib43))、PaperBench(Starace 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib25))和 MLR-Bench(Chen 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib38))等基准评估了实验、复现和开放式的 ML 研究,发现智能体在执行和验证方面仍然困难。近期的保证导向系统进一步强调主张审计、可验证报告和完整性保障(Yang 等人, 2026 (https://arxiv.org/html/2606.31651#bib.bib48); Liu 等人, 2026 (https://arxiv.org/html/2606.31651#bib.bib31); Gupta and Pruthi, 2025 (https://arxiv.org/html/2606.31651#bib.bib35); Zhu 等人, 2025 (https://arxiv.org/html/2606.31651#bib.bib36); Resnik 等人, 2026 (https://arxiv.org/html/2606.31651#bib.bib37))。FARS 则通过结构化的人工评审、子项分数、完整性检查、LLM 使用披露以及保留的可检查产物,来评估由已部署的自主研究系统产生的完整论文。
3 FARS
FARS 是一个多智能体研究系统,将开放的研究方向转化为完整的假设与验证论文。它由四个专门的阶段组成,即构思、规划、实验和写作,这些阶段依次将候选研究假设转化为可执行计划、实验证据和手稿。一个
相似文章
@dair_ai: https://x.com/dair_ai/status/2053495521243799717
DAIR AI 的每周精选汇总了多项重磅研究论文,包括通过内化并行推理提升模型性能的 HeavySkill,以及利用强化学习优化智能体编排的 Sakana AI Conductor。此外,还涵盖了 Meta FAIR 关于自我改进预训练的研究工作。
@rohanpaul_ai: Meta、斯坦福、谷歌等多家顶级实验室的新论文提出了AutoResearchClaw。表明自动化研究改进…
来自Meta、斯坦福和谷歌的一篇新论文提出了AutoResearchClaw,该方法通过整合故障恢复、辩论和选择性人工输入来改进自动化研究。它在ARC-Bench上以54.7%的优势超越了AI Scientist v2,并揭示了当受到过程约束而非无限自由时,自主性会得到增强。
@_akhaliq: 论文:
一篇论文介绍了Arbor,这是一种AI框架,通过结合策略协调、隔离假设测试和持久知识树,实现跨多个领域的自主科学研究,并迭代改进研究成果。
@_ar9av: 连续第6天每天阅读一篇关于AI的arXiv论文并分享真正印象深刻的内容:AutoSci(北京大学)概要:…
一条推文介绍北京大学开发的AutoSci系统,该系统可自动化从文献调研到回复审稿意见的整个研究流程,并在项目间进行自我改进。
@dair_ai: https://x.com/dair_ai/status/2061104052818108476
三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。