@ms_aifrontiers: 许多智能体基准测试假设世界仅在智能体行动时才发生变化。许多实际任务并非如此:门票开售…
摘要
讨论当前智能体基准测试的一个局限性,即它们假设世界仅在智能体行动时才发生变化,而许多实际任务要求智能体等待外部事件发生后再行动。
查看缓存全文
缓存时间: 2026/06/09 01:31
你的智能体有多耐心?
我们发布了SentinelBench:覆盖10个合成应用的网页监控任务,旨在测试智能体能否观察、等待并在世界变化时采取行动。
事实证明,“如何等待”至关重要。
SentinelBench:面向长期运行监控智能体的基准测试 - 微软研究院
许多智能体基准测试假设世界仅在智能体行动时发生变化。但现实任务往往不同:票务开售、消息到达、价格波动、帖子获赞。智能体不应持续点击或搜索,而应耐心观察,在正确时机行动。
SentinelBench 在时间动态变化的网页环境中测试智能体,成功的关键在于等待。
如何等待影响巨大:在40分钟的任务中,采用循环休眠与轮询的智能体,费用高出9.7倍,完成任务数却少于配备专用变化检测工具的智能体。
博客:微软研究院
代码:GitHub
作者:
@matheusmaldaner
@adamfourney
@ASwearngin77874
@HsseinMzannar
@bansalg_
@MayaMurad0
@HosnRafa
@SaleemaAmershi
相似文章
@ms_aifrontiers: SentinelBench 在时间演变的网络环境中测试智能体,成功需要等待。等待的方式至关重要:在4…
SentinelBench 是一个新的基准测试,用于评估 AI 智能体在时间演变的网络环境中的表现。研究发现,使用专用变化检测工具的智能体优于使用睡眠-轮询循环的智能体,成本降低 9.7 倍。
每个人都关注他们的智能体是否完成任务,但几乎没人问它是否在随着时间的推移变得更好
文章指出了AI智能体开发中一个常见的忽视点:虽然大多数团队会监控任务完成情况,但很少有系统能够捕获失败模式并将其反馈到未来的运行中,从而实现学习和持续改进。
有没有人也觉得AI代理在事情变得复杂之前都表现得很惊艳?
对AI代理令人印象深刻的演示和可靠的实际执行之间差距的反思,认为当前代理擅长结构化任务但在不可预测条件下会失败,并指出近期AI角色将主要集中于带人类监督的窄范围自动化。
我认为很多人低估了不可靠 Agent 的成本有多高
作者指出,不可靠 AI Agent 的隐性成本在于持续人工监控所带来的认知开销,并强调在实际落地中,可预测性与环境稳定性远比模型的原始智能更重要。当 Agent 运行在受控且经过验证的环境中,而非充满不确定性的环境时,实际工作流的效率将得到显著提升。
@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…
本文介绍了“智能体最终考试”(Agents' Last Exam),这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败,在最难的层级中平均通过率仅为2.6%,揭示了基准分数与现实世界自动化准备程度之间的巨大差距。