@ms_aifrontiers: SentinelBench 在时间演变的网络环境中测试智能体，成功需要等待。等待的方式至关重要：在4…

X AI KOLs Following 2026/06/08 18:25 论文

benchmarks ai-agents web-environments change-detection polling time-evolving research

摘要

SentinelBench 是一个新的基准测试，用于评估 AI 智能体在时间演变的网络环境中的表现。研究发现，使用专用变化检测工具的智能体优于使用睡眠-轮询循环的智能体，成本降低 9.7 倍。

SentinelBench 在时间演变的网络环境中测试智能体，成功需要等待。等待的方式至关重要：在 40 分钟的任务中，使用睡眠-轮询循环的智能体成本可能高出 9.7 倍，同时完成任务的数量少于使用专用变化检测工具的智能体。

查看原文

相似文章

X AI KOLs Following

讨论当前智能体基准测试的一个局限性，即它们假设世界仅在智能体行动时才发生变化，而许多实际任务要求智能体等待外部事件发生后再行动。

arXiv cs.AI

本文介绍了AgingBench，一个衡量已部署AI智能体因记忆状态变化、交互历史和生命周期事件而随时间退化的基准。它将老化分为四种机制，并提供诊断工具进行针对性修复。

X AI KOLs Following

本文介绍了“智能体最终考试”（Agents' Last Exam），这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败，在最难的层级中平均通过率仅为2.6%，揭示了基准分数与现实世界自动化准备程度之间的巨大差距。

Reddit r/artificial

开发者创建了一个名为 continuity-benchmarks 的新基准测试，用于测试 AI 编码智能体在活跃开发过程中保持与项目规则一致性的能力，解决了现有记忆基准测试的空白——这些测试侧重于语义回忆而非实时架构一致性和多会话行为。

Hugging Face Daily Papers

SaaSBench是一个用于评估AI智能体在企业SaaS开发中的新基准，涉及多组件系统集成，包含30个任务、6个领域和5370个验证节点。实验表明，智能体的主要瓶颈在于系统配置与集成，而非孤立的代码生成。