@ms_aifrontiers: 许多智能体基准测试假设世界仅在智能体行动时才发生变化。许多实际任务并非如此:门票开售…

X AI KOLs Following 新闻

摘要

讨论当前智能体基准测试的一个局限性,即它们假设世界仅在智能体行动时才发生变化,而许多实际任务要求智能体等待外部事件发生后再行动。

许多智能体基准测试假设世界仅在智能体行动时才发生变化。许多实际任务并非如此:门票开售、消息到达、价格变动、帖子获得点赞。与其继续点击或搜索,智能体应当耐心观察,然后在适当时机行动。
查看原文
查看缓存全文

缓存时间: 2026/06/09 01:31

你的智能体有多耐心?

我们发布了SentinelBench:覆盖10个合成应用的网页监控任务,旨在测试智能体能否观察、等待并在世界变化时采取行动。

事实证明,“如何等待”至关重要。
SentinelBench:面向长期运行监控智能体的基准测试 - 微软研究院

许多智能体基准测试假设世界仅在智能体行动时发生变化。但现实任务往往不同:票务开售、消息到达、价格波动、帖子获赞。智能体不应持续点击或搜索,而应耐心观察,在正确时机行动。

SentinelBench 在时间动态变化的网页环境中测试智能体,成功的关键在于等待
如何等待影响巨大:在40分钟的任务中,采用循环休眠与轮询的智能体,费用高出9.7倍,完成任务数却少于配备专用变化检测工具的智能体。

博客:微软研究院

代码:GitHub

作者:
@matheusmaldaner
@adamfourney
@ASwearngin77874
@HsseinMzannar
@bansalg_
@MayaMurad0
@HosnRafa
@SaleemaAmershi

相似文章

我认为很多人低估了不可靠 Agent 的成本有多高

Reddit r/AI_Agents

作者指出,不可靠 AI Agent 的隐性成本在于持续人工监控所带来的认知开销,并强调在实际落地中,可预测性与环境稳定性远比模型的原始智能更重要。当 Agent 运行在受控且经过验证的环境中,而非充满不确定性的环境时,实际工作流的效率将得到显著提升。

@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…

X AI KOLs Following

本文介绍了“智能体最终考试”(Agents' Last Exam),这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败,在最难的层级中平均通过率仅为2.6%,揭示了基准分数与现实世界自动化准备程度之间的巨大差距。