real-world-automation

#real-world-automation

@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…

X AI KOLs Following ↗ · 昨天缓存

本文介绍了“智能体最终考试”（Agents' Last Exam），这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败，在最难的层级中平均通过率仅为2.6%，揭示了基准分数与现实世界自动化准备程度之间的巨大差距。

0 人收藏 0 人点赞