标签
一项研究评估了前沿模型预测科学进展的能力,涵盖4760个事件,发现它们可以识别可能的方向,但无法可靠预测结果或时间线,且存在系统性过度自信。
在Google I/O大会上,DeepMind CEO Demis Hassabis宣布科学进步正在变得可量化计算,推出了Gemini for Science系统,帮助研究人员读论文、写代码、生成假设,使科研像软件一样规模化迭代。
本文介绍了CUSP,一个用于评估AI系统预测科学进展能力的基准,发现当前模型表现出系统性的过度自信和领域依赖性局限,无法可靠地预测科学进步。