FutureSim:通过回放世界事件评估自适应智能体
摘要
FutureSim按时间顺序回放世界事件,以基准测试AI智能体的长期预测能力,结果发现即使是最优秀的智能体,准确率也仅为25%。
查看缓存全文
缓存时间: 2026/05/15 04:24
论文页 - FutureSim:通过回放世界事件评估自适应智能体
来源:https://huggingface.co/papers/2605.15188
摘要
FutureSim 通过模拟按时间顺序排列的真实世界事件序列,评估 AI 智能体的长期预测能力,揭示了当前预测性能存在的显著差距。
AI 智能体正越来越多地被部署在动态、开放式的环境中,这些环境需要智能体随着新信息的到来而进行适应。为了高效衡量这一能力在现实场景中的表现,我们提出构建基于真实世界事件发生顺序进行回放的基础模拟。我们构建了 FutureSim,在该框架中,智能体在与其知识截止日期之后的世界事件进行交互的同时,对这些事件进行预测——通过模拟时间顺序回放:真实新闻文章在模拟时段内不断到达,问题不断被解答。我们评估了前沿智能体在其原生环境中的表现,测试它们预测2026年1月至3月这三个月内世界事件的能力。FutureSim 清晰地揭示了不同智能体能力的差异:表现最佳的智能体准确率为25%,而许多智能体的布莱尔技能分数(Brier skill score)甚至比不作任何预测还要差。通过细致的消融实验,我们展示了 FutureSim 如何为研究新兴研究方向(如长时域测试时适应、搜索、记忆以及关于不确定性的推理)提供了现实场景。总体而言,我们希望我们的基准设计能够为衡量 AI 在现实世界中覆盖长时间跨度的开放式适应能力铺平道路。
查看 arXiv 页面 (https://arxiv.org/abs/2605.15188)
查看 PDF (https://arxiv.org/pdf/2605.15188)
项目页面 (https://openforecaster.github.io/futuresim)
GitHub (https://github.com/OpenForecaster/futuresim)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15188)
引用本文的模型0
暂无模型引用本文
请在模型 README.md 中引用 arxiv.org/abs/2605.15188,以将其链接至本页面。
引用本文的数据集0
暂无数据集引用本文
请在数据集 README.md 中引用 arxiv.org/abs/2605.15188,以将其链接至本页面。
引用本文的 Spaces0
暂无 Space 引用本文
请在 Space README.md 中引用 arxiv.org/abs/2605.15188,以将其链接至本页面。
包含本文的收藏集0
暂无收藏集包含本文
请将本文添加到一个收藏集 (https://huggingface.co/new-collection) 中以将其链接至本页面。
相似文章
模型现在能预测未来事件并在Polymarket上赚钱吗?
马克斯·普朗克研究所的研究人员推出了FutureSim,这是一个通过回放历史网络数据让AI代理预测真实世界未来事件的环境。在Codex上运行的GPT 5.5在部分Polymarket市场(如超级碗LX)上取得了近乎完美的Brier技能分数,超越了人类聚合市场,但在英国大选和格莱美奖等其他市场上表现不佳。
ForeSci:评估LLM代理的前瞻性AI研究判断
介绍了ForeSci,一个时间控制基准,用于评估LLM代理是否能够基于历史证据做出前瞻性研究判断。它包含跨越四个AI领域的500个任务,结果表明显式的证据组织提高了可追溯性,但揭示了反复出现的证据-决策解耦。
每个人都关注他们的智能体是否完成任务,但几乎没人问它是否在随着时间的推移变得更好
文章指出了AI智能体开发中一个常见的忽视点:虽然大多数团队会监控任务完成情况,但很少有系统能够捕获失败模式并将其反馈到未来的运行中,从而实现学习和持续改进。
AgentForesight:多智能体系统中用于早期故障预测的在线审计
本文介绍了 AgentForesight,这是一个用于基于大语言模型(LLM)的多智能体系统的在线审计和早期故障预测框架。文章提出了一个新数据集 AFTraj-22K,以及一个专用模型 AgentForesight-7B,该模型在检测轨迹执行过程中的决定性错误方面优于领先的专有模型。
Agent-World:面向演进式通用智能体的现实世界环境合成扩展
# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua