FutureSim：通过回放世界事件评估自适应智能体

Hugging Face Daily Papers 2026/05/14 00:00 论文

agent-evaluation benchmark world-events time-series simulation forecasting ai-agents

摘要

FutureSim按时间顺序回放世界事件，以基准测试AI智能体的长期预测能力，结果发现即使是最优秀的智能体，准确率也仅为25%。

AI智能体正越来越多地被部署在动态、开放式的环境中，这要求它们能根据新到来的信息进行自适应。为了高效衡量这一能力在真实用例中的表现，我们提出构建基于真实世界的模拟，按事件发生的顺序进行回放。我们建立了FutureSim，智能体在其中预测超出其知识截止时间的世界事件，同时与按时间顺序回放的世界交互：模拟期间实时新闻文章到达以及问题得到解答。我们在原生框架下评估前沿智能体，测试它们在2026年1月至3月这三个月内预测世界事件的能力。FutureSim揭示了它们能力的显著差异，最佳智能体的准确率仅为25%，许多智能体的布里尔技能评分甚至比不作任何预测还要差。通过细致的消融实验，我们展示了FutureSim如何为研究长期测试时自适应、搜索、记忆和不确定性推理等新兴研究方向提供现实场景。总体而言，我们希望我们的基准设计能够为衡量AI在真实世界长期时间跨度内开放式自适应方面的进步铺平道路。

查看原文

查看缓存全文

缓存时间: 2026/05/15 04:24

论文页 - FutureSim：通过回放世界事件评估自适应智能体

来源：https://huggingface.co/papers/2605.15188

摘要

FutureSim 通过模拟按时间顺序排列的真实世界事件序列，评估 AI 智能体的长期预测能力，揭示了当前预测性能存在的显著差距。

AI 智能体正越来越多地被部署在动态、开放式的环境中，这些环境需要智能体随着新信息的到来而进行适应。为了高效衡量这一能力在现实场景中的表现，我们提出构建基于真实世界事件发生顺序进行回放的基础模拟。我们构建了 FutureSim，在该框架中，智能体在与其知识截止日期之后的世界事件进行交互的同时，对这些事件进行预测——通过模拟时间顺序回放：真实新闻文章在模拟时段内不断到达，问题不断被解答。我们评估了前沿智能体在其原生环境中的表现，测试它们预测2026年1月至3月这三个月内世界事件的能力。FutureSim 清晰地揭示了不同智能体能力的差异：表现最佳的智能体准确率为25%，而许多智能体的布莱尔技能分数（Brier skill score）甚至比不作任何预测还要差。通过细致的消融实验，我们展示了 FutureSim 如何为研究新兴研究方向（如长时域测试时适应、搜索、记忆以及关于不确定性的推理）提供了现实场景。总体而言，我们希望我们的基准设计能够为衡量 AI 在现实世界中覆盖长时间跨度的开放式适应能力铺平道路。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15188)
查看 PDF (https://arxiv.org/pdf/2605.15188)
项目页面 (https://openforecaster.github.io/futuresim)
GitHub (https://github.com/OpenForecaster/futuresim)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15188)

引用本文的模型0

暂无模型引用本文

请在模型 README.md 中引用 arxiv.org/abs/2605.15188，以将其链接至本页面。

引用本文的数据集0

暂无数据集引用本文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15188，以将其链接至本页面。

引用本文的 Spaces0

暂无 Space 引用本文

请在 Space README.md 中引用 arxiv.org/abs/2605.15188，以将其链接至本页面。

包含本文的收藏集0

暂无收藏集包含本文

请将本文添加到一个收藏集 (https://huggingface.co/new-collection) 中以将其链接至本页面。

相似文章

模型现在能预测未来事件并在Polymarket上赚钱吗？

Reddit r/singularity

马克斯·普朗克研究所的研究人员推出了FutureSim，这是一个通过回放历史网络数据让AI代理预测真实世界未来事件的环境。在Codex上运行的GPT 5.5在部分Polymarket市场（如超级碗LX）上取得了近乎完美的Brier技能分数，超越了人类聚合市场，但在英国大选和格莱美奖等其他市场上表现不佳。

ForeSci：评估LLM代理的前瞻性AI研究判断

arXiv cs.AI

介绍了ForeSci，一个时间控制基准，用于评估LLM代理是否能够基于历史证据做出前瞻性研究判断。它包含跨越四个AI领域的500个任务，结果表明显式的证据组织提高了可追溯性，但揭示了反复出现的证据-决策解耦。

每个人都关注他们的智能体是否完成任务，但几乎没人问它是否在随着时间的推移变得更好

Reddit r/AI_Agents

文章指出了AI智能体开发中一个常见的忽视点：虽然大多数团队会监控任务完成情况，但很少有系统能够捕获失败模式并将其反馈到未来的运行中，从而实现学习和持续改进。

AgentForesight：多智能体系统中用于早期故障预测的在线审计

arXiv cs.CL

本文介绍了 AgentForesight，这是一个用于基于大语言模型（LLM）的多智能体系统的在线审计和早期故障预测框架。文章提出了一个新数据集 AFTraj-22K，以及一个专用模型 AgentForesight-7B，该模型在检测轨迹执行过程中的决定性错误方面优于领先的专有模型。

Agent-World：面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源：[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua