ForeSci:评估LLM代理的前瞻性AI研究判断
摘要
介绍了ForeSci,一个时间控制基准,用于评估LLM代理是否能够基于历史证据做出前瞻性研究判断。它包含跨越四个AI领域的500个任务,结果表明显式的证据组织提高了可追溯性,但揭示了反复出现的证据-决策解耦。
arXiv:2606.00644v1 Announce Type: new
摘要:AI研究常常需要在未来证据出现之前做出决策:要攻克哪个瓶颈、追求哪个方向,或者项目应如何定位。我们引入了ForeSci,一个时间控制基准,用于评估LLM代理是否能够基于历史证据做出此类前瞻性研究判断。ForeSci包含跨越四个快速发展的AI领域和四个决策家族的500个任务。每个任务都配有一个与截止时间对齐的离线知识库;截止时间后的论文在生成过程中被隐藏,仅用于验证。为避免随机的未来事件预测,任务源自截止时间前的分类分支和证据信号,并且答案生成主干被选择为早于任务截止时间。我们评估了原生LLM、Hybrid RAG以及三种研究代理适配,覆盖四个主干。结果表明,显式的证据组织提高了可追溯性和事实支持,但其收益强烈依赖于决策家族。诊断揭示了反复出现的证据-决策解耦:代理可能会引用相关证据,但预测错误的研究对象。ForeSci将前瞻性AI研究判断转化为一个受控基准,用于评估作为决策系统的研究代理。
查看缓存全文
缓存时间: 2026/06/02 15:48
# ForeSci: 评估LLM智能体的前瞻性AI研究判断
来源:https://arxiv.org/html/2606.00644
Qiuyu Tian¹,², Zequn Liu², Yingce Xia², Youyong Kong¹, Haojie Yin³
¹东南大学,南京,中国
²北京中关村学院,北京,中国
³昆山杜克大学,昆山,中国
###### 摘要
AI研究常常需要在未来证据出现之前做出决策:攻击哪个瓶颈、追求哪个方向、或者项目应如何定位。我们提出了ForeSci,一个时间受控的基准测试,用于评估LLM智能体能否基于历史证据做出此类前瞻性研究判断。ForeSci包含跨越四个快速发展的AI领域和四个决策类别的500个任务。每个任务都配备了一个截止时间对齐的离线知识库;截止时间后的论文在生成过程中被隐藏,仅用于验证。为避免随机的未来事件预测,任务来源于截止时间前的分类分支和证据信号,并且答案生成主模型被选择在任务截止时间之前。我们评估了原生LLM、混合RAG以及基于三个研究智能体适配的四种主模型。结果表明,显式的证据组织提高了可追溯性和事实支持,但收益强烈依赖于决策类别。诊断揭示了一个反复出现的证据-决策脱钩现象:智能体在预测错误的研究对象时可能引用相关证据。ForeSci将前瞻性AI研究判断转化为一个受控基准,用于评估作为决策系统的研究智能体。
## 1 引言
AI研究的时间尺度上,今天的边界就是明天的基线。一个研究决策的价值(例如,攻击哪个瓶颈、哪个方向值得六个月投入)通常在于预测领域的走向。随着自主研究智能体越来越多地被用于构思、规划和科学工作流程执行(Lu等,2026 (https://arxiv.org/html/2606.00644#bib.bib40);Li等,2024 (https://arxiv.org/html/2606.00644#bib.bib6);Tang等,2025 (https://arxiv.org/html/2606.00644#bib.bib14);Yamada等,2025 (https://arxiv.org/html/2606.00644#bib.bib13);Gridach等,2025 (https://arxiv.org/html/2606.00644#bib.bib12);Chen等,2025 (https://arxiv.org/html/2606.00644#bib.bib15);Lupidi等,2026 (https://arxiv.org/html/2606.00644#bib.bib16);Wang等,2025 (https://arxiv.org/html/2606.00644#bib.bib17)),它们被要求参与到这个前瞻性决策层。当前LLM智能体能否就尚未发生的未来做出有辩护、有证据支撑的研究判断,因此成为一个核心的悬而未决的问题。
现有的基准测试并未完全回答这个问题。先前的工作主要评估AI系统是否能回答论文相关的问题、综合文献(Lála等,2023 (https://arxiv.org/html/2606.00644#bib.bib5);Wan等,2024 (https://arxiv.org/html/2606.00644#bib.bib7);Lewis等,2020 (https://arxiv.org/html/2606.00644#bib.bib3))、使用工具(Yao等,2023 (https://arxiv.org/html/2606.00644#bib.bib1);Schick等,2023 (https://arxiv.org/html/2606.00644#bib.bib2))、执行研究工作流程(Chen等,2025 (https://arxiv.org/html/2606.00644#bib.bib15);Lupidi等,2026 (https://arxiv.org/html/2606.00644#bib.bib16);Wang等,2025 (https://arxiv.org/html/2606.00644#bib.bib17)),或生成未来论文的组成部分,如相关工作、贡献内容、引用和影响力(Ajith等,2026 (https://arxiv.org/html/2606.00644#bib.bib8))。这些任务都没有询问智能体是否能产生一个开放性的研究决策,比如选择瓶颈、对研究议程进行排序,或选择发表场所,仅使用特定历史时刻可用的证据。
构建这样的基准测试面临两个挑战。首先,证据边界必须可执行。截止时间后的论文不应出现在检索中或主模型的训练数据中。否则,系统可能依赖后见之明而非前瞻性(Zhao等,2024 (https://arxiv.org/html/2606.00644#bib.bib19);Ye等,2024 (https://arxiv.org/html/2606.00644#bib.bib20);Liu等,2026 (https://arxiv.org/html/2606.00644#bib.bib18);Ajith等,2026 (https://arxiv.org/html/2606.00644#bib.bib8);Wang等,2026 (https://arxiv.org/html/2606.00644#bib.bib9))。其次,任务必须在历史上可推断。它们应基于截止时间前可用的信号,而不是任意的未来事件或设计选择。因此,一个前瞻性基准必须同时控制系统能看到什么以及公平地问什么。
图1:四个决策类别中的代表性ForeSci任务示例:方向预测、瓶颈-机会发现、战略研究规划、以及场所感知的研究定位。
为解决这些挑战,我们引入了ForeSci,一个用于前瞻性AI研究判断的时间受控基准测试。它包含500个跨越四个快速发展的AI领域和四个决策类别的任务(图1 (https://arxiv.org/html/2606.00644#S1.F1))。每个任务将一个公开问题与截止时间对齐的离线知识库配对,而截止时间后的证据在评估前隐藏。任务基于截止时间前的分类分支、节点级证据记录和方法演化信号构建,确保每个决策在历史上可推断,但不能通过未来泄漏直接回答。每个答案通过四个互补信号进行评估:基于原子事实的事实支持(Min等,2023 (https://arxiv.org/html/2606.00644#bib.bib21))、未来目标对齐(Wang等,2026 (https://arxiv.org/html/2606.00644#bib.bib9))、证据可追溯性、以及受同行评审可靠性分析启发的评审者说服力(Francois, 2015 (https://arxiv.org/html/2606.00644#bib.bib25))。我们评估了原生LLM、混合RAG以及三个离线适配的研究智能体系统,涵盖四种LLM主模型。为避免数据泄漏,所有系统在相同的历史知识库中运行,且所有LLM主模型在时间截止前已训练。结果显示,智能体风格的方法提高了证据可追溯性和事实性,但最强的方法因决策类别而异。进一步的诊断审计揭示了证据-决策脱钩现象:智能体可能引用相关的截止时间前证据,同时预测错误的对象、错误分配因果关系、或选择错误的干预措施。除了回顾性评估,我们展示了相同的构建流程支持完全前瞻性的预测,使研究智能体能够随着新文献的出现持续被评估。我们的主要贡献包括:
- •一个时间受控的基准测试,包含四个AI领域和四个决策类别的500个任务,配有截止时间对齐的离线知识库和截止时间前的主模型;相同的流程支持超越回顾性评估的完全前瞻性预测
- •一个多信号评估协议,将事实性、未来目标对齐、证据可追溯性和评审者说服力分开,并经过人类专家验证。
- •对LLM研究智能体的系统评估和诊断审计,显示智能体风格的方法有条件地改善了可追溯性和事实性,并识别出一个以前未研究过的失败模式——证据-决策脱钩。
## 2 相关工作
##### 自主研究智能体
AIforScience系统已从本地文献问答转向智能体工作流程,这些工作流程检索、综合、构思并执行研究循环的各个部分(Lu等,2026 (https://arxiv.org/html/2606.00644#bib.bib40);Ghareeb等,2026 (https://arxiv.org/html/2606.00644#bib.bib41))。PaperQA风格系统(Lála等,2023 (https://arxiv.org/html/2606.00644#bib.bib5))、Chain-of-Ideas(Li等,2024 (https://arxiv.org/html/2606.00644#bib.bib6))、AI-Researcher(Tang等,2025 (https://arxiv.org/html/2606.00644#bib.bib14))、AI Scientist(Yamada等,2025 (https://arxiv.org/html/2606.00644#bib.bib13))、Intern-Atlas(Wu等,2026 (https://arxiv.org/html/2606.00644#bib.bib11))以及最近的智能体AIforScience工作流程(Gridach等,2025 (https://arxiv.org/html/2606.00644#bib.bib12))说明了向自主研究辅助的转变。随着这些智能体日益被用于构思和规划,它们被隐晦地要求做出研究决策。但它们是否能基于特定历史时刻可用的证据做到这一点,仍是一个未解问题。ForeSci针对这一决策层。
##### 自主研究基准测试
现有的自主研究基准测试主要聚焦于科学推理(Lu等,2022 (https://arxiv.org/html/2606.00644#bib.bib47);Center for AI Safety等,2026 (https://arxiv.org/html/2606.00644#bib.bib48);Brag等,2025 (https://arxiv.org/html/2606.00644#bib.bib49);Liu等,2025 (https://arxiv.org/html/2606.00644#bib.bib50);Jansen等,2025 (https://arxiv.org/html/2606.00644#bib.bib51))、文献基础问答(Wan等,2024 (https://arxiv.org/html/2606.00644#bib.bib7);Lála等,2023 (https://arxiv.org/html/2606.00644#bib.bib5))、机器学习研究工作流程(Chen等,2025 (https://arxiv.org/html/2606.00644#bib.bib15);Lupidi等,2026 (https://arxiv.org/html/2606.00644#bib.bib16))以及基于论文的智能体竞技场(Wang等,2025 (https://arxiv.org/html/2606.00644#bib.bib17))。这些基准测试衡量检索、工具使用、综合或执行。与之相比,ForeSci要求系统做出前瞻性研究决策,而非恢复可获取的答案或执行已知工作流程。最近有几项工作开始评估超出想法生成或工作流程执行的高阶研究能力。有些聚焦于新颖性(Si等,2025 (https://arxiv.org/html/2606.00644#bib.bib22);Schopf and Färber,2026 (https://arxiv.org/html/2606.00644#bib.bib23))、品味(Tong等,2026 (https://arxiv.org/html/2606.00644#bib.bib4))、影响力(Jiang,2026 (https://arxiv.org/html/2606.00644#bib.bib24);Zhu等,2026 (https://arxiv.org/html/2606.00644#bib.bib42))以及智能体生成想法的未来对齐(Wang等,2026 (https://arxiv.org/html/2606.00644#bib.bib9))。PreScience(Ajith等,2026 (https://arxiv.org/html/2606.00644#bib.bib8))更进一步,预测未来论文的组成部分。尽管这些工作利用未来论文或引用信号作为评估参考(与我们的工作相关),但ForeSci专注于一个不同的研究场景:战略性的、前瞻性的、宏观层面的科学决策。
##### 评估中的时间完整性
时间完整性在评估前瞻性时至关重要:没有严格的截止时间,系统可能受益于后见之明、泄漏或后期稳定的术语而非推理。ExAnte(Liu等,2026 (https://arxiv.org/html/2606.00644#bib.bib18))、Set the Clock(Zhao等,2024 (https://arxiv.org/html/2606.00644#bib.bib19))、ForecastBench(Karger等,2025 (https://arxiv.org/html/2606.00644#bib.bib44))、FutureX(Zeng等,2025 (https://arxiv.org/html/2606.00644#bib.bib43))、FOReCAst(Yuan等,2026 (https://arxiv.org/html/2606.00644#bib.bib45))、PROPHET(Tao等,2025 (https://arxiv.org/html/2606.00644#bib.bib46))和MIRAI(Ye等,2024 (https://arxiv.org/html/2606.00644#bib.bib20))都促使在面向未来的推理中使用时间切片评估。虽然这些基准主要评估通用领域的未来事件预测,ForeSci聚焦于快速发展AI子领域中的面向未来的科学决策。因此,它将时间控制扩展到开放性的研究智能体输出,将截止时间对齐的离线知识库与隐藏的后期截止监督配对。
## 3 ForeSci框架
为了系统地评估前瞻性AI研究判断,ForeSci模拟了一个回顾性预测环境。模型被要求在严格的历史截止时间做出研究决策,仅使用按时间对齐的证据。
### 3.1 问题形式化
令 \( t \) 表示一个截止日期,\( \mathcal{K}_{\leq t}(q) \) 表示为问题 \( q \) 构建的截止时间对齐的知识库(即截止至 \( t \) 已发表的文献),\( \mathcal{G}_{> t}(q) \) 表示从截止时间后文献中提取的、被隐藏的验证目标。一个基准实例为:
\[ x = (q, t, \mathcal{K}_{\leq t}(q), f) \tag{1} \]
其中 \( f \) 是所需的任务家族。系统仅使用提供的截止时间对齐知识库返回 \( a = \pi_{\theta}(q, \mathcal{K}_{\leq t}(q)) \);\( \mathcal{G}_{> t}(q) \) 仅用于评估。为避免信息泄漏,我们使用在相关任务截止时间前已训练的答案生成主模型,禁用网络搜索,并允许系统在生成答案时仅使用 \( \mathcal{K}_{\leq t}(q) \) 作为外部支持。ForeSci通过四个任务家族实例化此判断问题:方向预测、瓶颈-机会发现、战略研究规划和场所条件定位。每个家族要求做出 \( t \) 之后的不同研究决策:预测具体的技术轨迹、识别瓶颈及其解锁的机会、在规划约束下对候选研究方向排序、或将项目定位到合适的场所社区。
### 3.2 数据收集与过滤
图2 (https://arxiv.org/html/2606.00644#S3.F2) 总结了构建流程。ForeSci基于四个快速发展的AI研究领域构建:LLM智能体、LLM微调与后训练、RAG与检索结构、以及视觉生成模型。对于每个领域,我们从arXiv¹¹¹https://arxiv.org/ 使用领域特定查询收集候选论文,使用Semantic Scholar²²²https://www.semanticscholar.org/ 丰富出版元数据,去重arXiv标识符,并在相关性和基准核心筛选后保留核心/支持论文。我们应用两个过滤阶段来构建截止时间对齐的语料库。首先,领域相关性筛选去除仅匹配表面关键词的论文。其次,更严格的基准核心筛选识别具有核心领域贡献和面向未来信号(例如,新颖的评估协议、已识别的瓶颈)的代表性论文。相关性较低但核心的论文保留为支持论文,噪声或边界情况被排除。最后,处理后的语料库按截止时间 \( t \) 进行时间截断,形成公开的截止时间前知识库 \( \mathcal{K}_{\leq t} \)。具体的截止日期 \( t \) 在各任务实例中有所不同,包括三个月(2025年12月31日)、六个月(2025年9月30日)以及2025年9月30日后的特定场所截止日期设置。领域级统计数据在表1中报告;时间跨度细节和论文数量统计在表A1和图A1中提供。更多构建细节在附录B中提供。
图2:当前正式ForeSci发布的构建过程。该图展示了从语料库收集和筛选到时间分类归纳、证据和演化资产构建、任务家族的流程。相似文章
是时候 REFLECT 了:我们能信任 LLM 评判者来评估基于证据的研究代理吗?
本文介绍了 REFLECT,这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明,当前的 LLM 评判者仍然不可靠,在推理、工具使用和报告质量失败方面的整体准确率低于 55%。
AI科学家产出结果,却未进行科学推理
大规模研究发现,基于LLM的科学智能体68%的情况下忽视证据,极少修正信念,表明它们能执行工作流,但缺乏真正的科学推理能力。
LEAF:事件增强预测的实时基准
LEAF是一个用于评估大语言模型在事件增强预测任务(如未来事件概率和时间序列预测)上的实时基准。它采用递归检索代理系统结合双代理交叉验证来提供相关的辅助文本,并表明大语言模型能够利用复杂事件来提升预测性能。
FS-Researcher:基于文件系统的代理实现长视野研究任务的测试时扩展
FS-Researcher 引入了一个基于文件系统的双代理框架,通过利用持久化外部内存作为共享工作区,使 LLM 代理能够突破上下文窗口限制进行深度研究。该框架在研究基准测试上实现了最先进的结果,并通过向证据收集分配计算来展现有效的测试时扩展能力。
Agent 评估:详细指南(53 分钟阅读)
关于评估基于 LLM 的 Agent 系统的全面指南,涵盖基本概念、评估框架以及来自近期基准测试的案例研究。