@dair_ai: 前沿模型能预测科学进展吗?大多数情况下不行,但原因如下。这项工作研究了4760个科学事件…

X AI KOLs Following 论文

摘要

一项研究评估了前沿模型预测科学进展的能力,涵盖4760个事件,发现它们可以识别可能的方向,但无法可靠预测结果或时间线,且存在系统性过度自信。

前沿模型能预测科学进展吗? 大多数情况下不行,但原因如下。 这项工作研究了跨学科的4760个科学事件。当给定时,前沿模型可以识别合理的研究方向。它们无法可靠地预测某项进展是否会出现,而且在时间线上判断错误。 他们指出,这是一个校准问题,而非知识问题。前沿模型在科学进展是否及何时到来方面存在自信的误校准。 这对于任何使用模型预测来选择议程的AI科学家或研究规划代理都是重要的基础。 论文:https://arxiv.org/abs/2605.22681 在我们的学院中学习构建高效的AI代理:https://academy.dair.ai
查看原文
查看缓存全文

缓存时间: 2026/05/23 20:12

前沿模型能否预测科学进步?

基本上不能,但以下说明了原因。

这项研究考察了跨学科的4,760个科学事件。前沿模型能够从给定的选项中识别出合理的研究方向。但它们无法可靠地预测一项进展能否实现,并且会错误估计时间线。

研究表明这是一个校准问题,而非知识问题。前沿模型对于科学进展是否发生以及何时发生,表现出过度自信且校准错误。

这一发现对于任何利用模型预测来制定议程的人工智能科学家或研究规划智能体而言,都是重要的基础依据。

论文:https://arxiv.org/abs/2605.22681

在我们的学院学习构建有效的AI智能体:https://academy.dair.ai


利用人工智能预测科学进展

来源:https://arxiv.org/abs/2605.22681
查看PDF (https://arxiv.org/pdf/2605.22681)

摘要: 人工智能已深度嵌入科学发现过程,但其能否预测科学进步仍不清楚。为研究这一问题,我们引入了一个基于时间基准的评估框架,用于在受控知识约束下预测科学进展。我们提出了CUSP(Cutoff-conditioned Unseen Scientific Progress,截止条件未知科学进步)——一个多学科、事件级的基准,通过可行性评估、机理推理、生成性方案设计以及时间预测来评估AI系统的科学预测能力。在4,760个科学事件上,我们观察到当前前沿模型存在系统性的、域相关的局限性。虽然模型能够从竞争性候选方案中识别出合理的研究方向,但它们无法可靠地预测科学进展是否能够实现,并系统性地错误估计其发生时间。模型性能在各领域高度异质——AI进展的时间可预测性优于生物学、化学和物理学的进展。性能对事件发生在训练截止之前还是之后几乎不敏感,这表明这些局限性不能仅由训练数据中的知识暴露来解释。在受控信息访问条件下,更多截止前知识能提升性能,但无法缩小与全信息设置之间的差距——对于高引用进展,这一差距更为显著。模型还表现出系统性的过度自信和强烈的响应偏差,表明其不确定性估计不可靠。综上所述,当前AI系统作为科学进展的预测工具仍有不足。获取先验知识并不能转化为可靠的预测能力,且后验信息对性能的提升作用超过前瞻性预测。

提交历史

来自:Sean Wu [查看邮件 (https://arxiv.org/show-email/ac3b60a4/2605.22681)] [v1] 2026年5月21日,星期四,16:23:36 UTC (26,940 KB)

相似文章

利用人工智能预测科学进展

Hugging Face Daily Papers

本文介绍了CUSP,一个用于评估AI系统预测科学进展能力的基准,发现当前模型表现出系统性的过度自信和领域依赖性局限,无法可靠地预测科学进步。

SciPaths:预测科学发现的路径

arXiv cs.CL

介绍了SciPaths,这是一个用于预测实现目标科学发现所需的关键贡献的基准,并评估了前沿和开放权重语言模型,发现从贡献反向推理到关键构建块的能力仍有显著提升空间。

评估AI执行科研任务的能力

OpenAI Blog

OpenAI推出FrontierScience,这是一个新的基准测试,用于衡量人工智能在物理、化学和生物学领域的专家级科学能力。GPT-5.2在奥林匹克式任务中达到77%,在研究型任务中达到25%。该论文提供了早期证据,表明GPT-5能显著加速真实的科学工作流程,将工作周期从数周缩短至数小时,同时建立了度量标准,以追踪朝着AI加速科学研究的进展。