@ms_aifrontiers: 许多智能体基准测试假设世界仅在智能体行动时才发生变化。许多实际任务并非如此：门票开售…

X AI KOLs Following 2026/06/08 18:25 新闻

ai-agents benchmarks real-world-tasks patience timing

摘要

讨论当前智能体基准测试的一个局限性，即它们假设世界仅在智能体行动时才发生变化，而许多实际任务要求智能体等待外部事件发生后再行动。

许多智能体基准测试假设世界仅在智能体行动时才发生变化。许多实际任务并非如此：门票开售、消息到达、价格变动、帖子获得点赞。与其继续点击或搜索，智能体应当耐心观察，然后在适当时机行动。

查看原文

查看缓存全文

缓存时间: 2026/06/09 01:31

你的智能体有多耐心？

我们发布了SentinelBench：覆盖10个合成应用的网页监控任务，旨在测试智能体能否观察、等待并在世界变化时采取行动。

许多智能体基准测试假设世界仅在智能体行动时发生变化。但现实任务往往不同：票务开售、消息到达、价格波动、帖子获赞。智能体不应持续点击或搜索，而应耐心观察，在正确时机行动。

SentinelBench 在时间动态变化的网页环境中测试智能体，成功的关键在于等待。
如何等待影响巨大：在40分钟的任务中，采用循环休眠与轮询的智能体，费用高出9.7倍，完成任务数却少于配备专用变化检测工具的智能体。

代码：GitHub

作者：
@matheusmaldaner
@adamfourney
@ASwearngin77874
@HsseinMzannar
@bansalg_
@MayaMurad0
@HosnRafa
@SaleemaAmershi

X AI KOLs Following

SentinelBench 是一个新的基准测试，用于评估 AI 智能体在时间演变的网络环境中的表现。研究发现，使用专用变化检测工具的智能体优于使用睡眠-轮询循环的智能体，成本降低 9.7 倍。

Reddit r/AI_Agents

文章指出了AI智能体开发中一个常见的忽视点：虽然大多数团队会监控任务完成情况，但很少有系统能够捕获失败模式并将其反馈到未来的运行中，从而实现学习和持续改进。

Reddit r/AI_Agents

对AI代理令人印象深刻的演示和可靠的实际执行之间差距的反思，认为当前代理擅长结构化任务但在不可预测条件下会失败，并指出近期AI角色将主要集中于带人类监督的窄范围自动化。

Reddit r/AI_Agents

作者指出，不可靠 AI Agent 的隐性成本在于持续人工监控所带来的认知开销，并强调在实际落地中，可预测性与环境稳定性远比模型的原始智能更重要。当 Agent 运行在受控且经过验证的环境中，而非充满不确定性的环境时，实际工作流的效率将得到显著提升。

X AI KOLs Following

本文介绍了“智能体最终考试”（Agents' Last Exam），这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败，在最难的层级中平均通过率仅为2.6%，揭示了基准分数与现实世界自动化准备程度之间的巨大差距。