标签
本文介绍了“智能体最终考试”(Agents' Last Exam),这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败,在最难的层级中平均通过率仅为2.6%,揭示了基准分数与现实世界自动化准备程度之间的巨大差距。
一位开发者分享了一个个人开源基准测试运行器,用于在真实、混乱的工作流程中测试 OpenClaw 代理。该工具允许用户定义私有评估案例,在实际工作空间中运行代理,并生成报告,旨在提供比公共基准测试更相关的信号。
作者质疑当前的 LLM 评估工具是否过于关注孤立的提示词,而忽视了完整的工作流程和智能体交互,并指出逐步的准确性可能会掩盖生产环境中整体行为的偏差。