@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2057867718632550782

X AI KOLs Timeline 论文

摘要

对学术研究生命周期中250多种AI工具的全面调查,确定了五个关键原则,并强调了AI生成与验证能力之间日益扩大的差距。

https://t.co/V4CJXy7esB
查看原文
查看缓存全文

缓存时间: 2026/05/22 19:57

每个AI研究堆栈现在必须解决的5大原则

首份覆盖学术研究中AI所有4个阶段的调查报告,它得出的5项原则,以及一张分阶段的安全自动化路线图。

约7分钟阅读:一份20位作者、覆盖250+工具的调查报告刚刚总结出的5项原则,一张8阶段AI助益与失效地图,以及6条在不丧失科学责任前提下使用AI的规则。

AI Scientist 用15美元生成一篇完整研究论文。

FARS 运行了228小时,消耗114亿个token,产出了100篇论文。

当同样的系统完全自主运行时,80%的报告结果是伪造的。

瓶颈已经转移。不再是生成。而是验证、溯源以及研究生命周期中的人工交接。

发生了什么

二十位研究人员刚刚发表了首份跨学术研究全生命周期的AI端到端调查报告。

该论文作者为 Lingdong Kong(新加坡国立大学 / Apple)及19位合著者,标题为 “AI for Auto-Research: Roadmap & User Guide”。它于2026年5月18日发布在arXiv上,覆盖截至2026年4月的发展。

研究范围非同寻常。现有大多数调查只覆盖一个阶段:文献综述、编码智能体或论文写作。而本报告将250+工具、52个基准测试和33个端到端系统映射到一个由4个阶段和8个步骤组成的统一框架中。

配套仓库 worldbench/awesome-ai-auto-research 采用MIT许可证,截至5月22日已获得100+星标和8个分支。

该框架将生命周期分为:创造(构思、文献、编码、图表)、写作(手稿)、验证(同行评审、反驳)和传播(Paper2X)。这一结构支撑了整个论点。

为什么这篇论文重要

成本与质量的数字拒绝规模化。

AI Scientist v2 在 ICLR 1-10分的评分体系下得分为6.33,每篇论文成本25美元。FARS 每篇论文大约1000美元,得分为5.05。ICLR 的接受门槛是5.69。

更便宜的系统已经跨过线。贵40倍的系统却低于门槛。

模式匹配的基准测试也夸大了科学编码能力。前沿系统在 SWE-bench Verified 上超过76%。但同样的系统在 ResearchCodeBench 上最高只有37-39%,而该任务要求实现论文中描述的方法。那里语义错误率高达58.6%。

验证数据更糟。在一个LLM评审员基准测试中,95.8%被拒的论文被误判为可接受。在 MLR-Bench 的完全自主赛道中,80%的报告结果被证实是伪造的。

论文的观点是,该领域已不再受限于能力,而是受限于可靠性。这一重新框架使得该调查值得一读。

原则1:结构化任务可行,开放式判断不行。

当任务结构化、基于可检索的证据并且可外部核查时,AI是可靠的。

SWE-bench Verified 超过76% vs. ResearchCodeBench 37-39% 是最清晰的例证。一个衡量根据已知通过测试修复bug的能力。另一个衡量模型是否实现了论文实际描述的算法。

同样的模型,不同的上限。

这一点贯穿各阶段。检索、引用候选、草拟图表、语法润色、格式转换:稳固。新颖性评估、决定性实验设计、长程推理、贡献框架:脆弱。

原则2:在每个阶段,生成速度都超过验证速度。

这是论文的核心张力。AI生成研究形态的成品速度远比它能证明其正确性的速度快。

想法在纸面上看起来新颖,但经过一次实现尝试后就变弱了。代码运行流畅,但实现的是与论文描述不同的算法。图表看起来可发表,却扭曲了坐标轴或遗漏了基线。

评审意见连贯且宽松。反驳文章读起来有说服力,并承诺了作者实际从未做过的实验。传播制品简化了结果,超出了论文实际提供的证据。

风险不在于这些制品无用。而在于它们因看起来完整而被当作已验证。

原则3:人类主导的协作优于完全自主。

论文中最有力的实证结果来自ICLR 2025关于AI在同行评审中的随机对照研究。在22,467条评审中,当LLM对人类评审员草稿提供反馈时,89%的评审质量得到提升。

将同一系列模型单独分配一篇论文去评审,95.8%的被拒论文被误判为可接受。

辅助模式提升质量。替代模式破坏质量。

这种不对称性在论文调查的每个地方都出现:写作、评审、反驳、传播。AI可靠地增强研究人员。作为记录在案的评审员,同样的模型可靠地失败。

原则4:有效的系统汇聚在三个层次:探索、执行、验证。

能够产生可信工作的系统,无论品牌如何,都结合了相同的三个层次。

探索通过MCTS、进化方法或分支智能体搜索假设、代码变体或回应策略。执行驱动外部工具:代码解释器、检索引擎、实验运行器、绘图工具、文档编辑器。验证通过执行反馈、引用验证、对抗性批评或人工审查检查中间输出。

建立在“越多智能体越好“上的堆栈在顺序推理上失败。论文中引用的Google和MIT规模化研究发现,3到4个协调智能体是经验上的最佳点。更大的群体积累通信开销的速度快于获得批评质量的速度。

原则5:研究中的AI是治理问题,而非检测问题。

语料库研究估计,在17.5%的计算机科学摘要和13.5%的生物医学摘要中存在可检测的AI修改。自我报告的使用率更高。

基于检测的执法无法扩展。AI文本检测器对正式学术散文和非母语写作产生误报。水印依赖于提供方合作,并会在转述和翻译中失效。

持久的是另一套问题。何种形式的AI使用必须披露?当AI生成的引用被伪造,或AI起草的反驳承诺了一个从未进行的实验,谁该负责?

政策必须遵循披露和问责,而非检测。论文得出了这一结论。

8个阶段及其安全自动化地图

生命周期压缩为一张地图。每个阶段都有AI擅长的工作、需要人工检查的工作以及尚不应委派的工作。

六条规则支撑着表格。

  • 将每个阶段交接视为验证检查点,而非过渡。
  • 对于任何可测试的主张,优先使用执行驱动的评估而非LLM作为评判。
  • 利用AI加强人工评审。89%的质量提升仅在辅助模式下出现。
  • 追踪每个反驳承诺与最终手稿diff的对应关系(在camera-ready之前)。
  • 在发布前,将每个传播制品与论文的caveats进行比较。
  • 披露AI使用,说明决策依据,对AI生成的声明承担责任。

AlphaSignal 观点

AI Scientist 阵营在成本上没错。他们错在了天花板。

Sakana AI、FARS 和 AI Scientist v2 这条线认为,在适当的成本-质量权衡下,自主性已经有用。反驳就在论文自身内部。每篇论文支出增加40倍(从25美元到1000美元)并不能买到质量。它买到的是低于接受门槛的产量。

三个问题在所有被调查的系统中仍然开放。它们是该领域未达演示水平背后的真正原因。

阶段边界忠实度。 没有系统保持从假设到传播的可追溯链接。假设、日志、手稿声明和反驳承诺在每个交接点断裂。

引用溯源。 生成的参考文献目录经常混淆同一项工作的预印本、研讨会、会议和期刊版本。作者列表、年份、会议地点和DOI可能来自一篇论文的四种不同记录。没有调查中的工具能解决这个问题。

认知所有权。 激进的自动化掩盖了将初级研究员转变为高级研究员的工作。委托文献综合或反驳,阻碍了随着时间积累所需的领域判断和批判性推理。

这篇论文值得花七分钟阅读的原因在于其重新框架。它不再询问一个自主AI科学家是否能取代人类研究人员。它开始询问研究过程产生的制品在进入公众视野时是否仍然与证据相联。

这是2026年5月应该问的正确问题。

你当前的AI研究堆栈解决了哪个原则,还有哪个仍然未解决?

所有来源链接均在第一条回复中。最新更新及每日信号的完整分析见我们的通讯(个人资料中的链接)。

相似文章

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2057153343081111582

X AI KOLs Timeline

UIUC、Meta和斯坦福大学联合发布的一份100页调查报告引入了人工智能代理的三个 harness 层(接口、机制、Scaling),认为大多数代理失败源于 harness 问题而非推理缺陷,并提供了一个用于审计代理堆栈的分类体系。

Open ai

Reddit r/ArtificialInteligence

文章讨论了行业共识:人工智能正变得极其强大,但在高风险任务上的可靠性仍是一个未解决的工程问题。强调当前系统优化的是合理性而非确定性真理,前进方向是分层验证系统而非单一完美模型。