@ms_aifrontiers: SentinelBench 在时间演变的网络环境中测试智能体,成功需要等待。等待的方式至关重要:在4…
摘要
SentinelBench 是一个新的基准测试,用于评估 AI 智能体在时间演变的网络环境中的表现。研究发现,使用专用变化检测工具的智能体优于使用睡眠-轮询循环的智能体,成本降低 9.7 倍。
SentinelBench 在时间演变的网络环境中测试智能体,成功需要等待。等待的方式至关重要:在 40 分钟的任务中,使用睡眠-轮询循环的智能体成本可能高出 9.7 倍,同时完成任务的数量少于使用专用变化检测工具的智能体。
相似文章
@ms_aifrontiers: 许多智能体基准测试假设世界仅在智能体行动时才发生变化。许多实际任务并非如此:门票开售…
讨论当前智能体基准测试的一个局限性,即它们假设世界仅在智能体行动时才发生变化,而许多实际任务要求智能体等待外部事件发生后再行动。
你的智能体也在老化:部署系统中的智能体生命周期工程
本文介绍了AgingBench,一个衡量已部署AI智能体因记忆状态变化、交互历史和生命周期事件而随时间退化的基准。它将老化分为四种机制,并提供诊断工具进行针对性修复。
@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…
本文介绍了“智能体最终考试”(Agents' Last Exam),这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败,在最难的层级中平均通过率仅为2.6%,揭示了基准分数与现实世界自动化准备程度之间的巨大差距。
我为编码智能体的“记忆”构建了一个基准测试,期待他人来挑战它
开发者创建了一个名为 continuity-benchmarks 的新基准测试,用于测试 AI 编码智能体在活跃开发过程中保持与项目规则一致性的能力,解决了现有记忆基准测试的空白——这些测试侧重于语义回忆而非实时架构一致性和多会话行为。
SaaSBench:探索编码智能体在长周期企业SaaS工程中的边界
SaaSBench是一个用于评估AI智能体在企业SaaS开发中的新基准,涉及多组件系统集成,包含30个任务、6个领域和5370个验证节点。实验表明,智能体的主要瓶颈在于系统配置与集成,而非孤立的代码生成。