CEO-Bench:智能体能否玩转长线游戏?
摘要
CEO-Bench 引入了一个模拟基准测试,评估语言模型智能体在500天内管理初创公司的能力,测试内容包括长期规划、噪声处理、适应性和多任务协调。结果显示,即使是最强的模型也表现挣扎,只有Claude Opus 4.8和GPT-5.5的最终余额高于起始资金。
查看缓存全文
缓存时间: 2026/06/18 03:55
论文页面 - CEO-Bench:智能体能否玩好长期博弈?
来源:https://huggingface.co/papers/2606.18543
摘要
CEO-Bench 通过一个Python接口,评估语言模型智能体在模拟初创公司500天运营中的能力,测试其在长期规划、噪声处理、适应性及多任务协调方面的熟练程度。
语言模型智能体(https://huggingface.co/papers?q=Language%20model%20agents)在软件工程、客户服务等孤立、短期的任务上已变得相当熟练。然而,现实世界的挑战要求综合多种复杂技能,而这些技能在智能体中大多未经测试:(1)在不确定性下穿越长期视野(https://huggingface.co/papers?q=long%20horizons);(2)在嘈杂环境(https://huggingface.co/papers?q=noisy%20environments)中获取信息;(3)适应变化的世界(https://huggingface.co/papers?q=changing%20world);(4)协调多个活动的部分以实现一致的目标。我们提出CEO-Bench,通过模拟一个具有代表性的现实任务——运营一家初创公司500天——来统一评估这些能力。智能体通过可编程的Python接口(https://huggingface.co/papers?q=programmable%20Python%20interface)管理虚构公司的定价、营销、预算等众多方面,在同样的环境中与人类CEO面临同样的挑战。成功需要分析嘈杂、互联的商业数据库(https://huggingface.co/papers?q=business%20databases),将信号转化为合理的战略,并通过编程协调众多决策。最强的智能体能够编写复杂代码来模拟客户群组(https://huggingface.co/papers?q=customer%20cohorts)以预测未来现金流,并挖掘谈判历史(https://huggingface.co/papers?q=negotiation%20history)以发现隐藏的客户偏好。即便如此,大多数最先进的模型在此环境中仍然表现挣扎。只有Claude Opus 4.8和GPT-5.5的最终余额超过起始的100万美元,而且两者都无法持续盈利。CEO-Bench在衡量驱动持续、适应性进步(https://huggingface.co/papers?q=adaptive%20progress)所需的智能方面迈出了第一步。
查看 arXiv 页面(https://arxiv.org/abs/2606.18543)查看 PDF(https://arxiv.org/pdf/2606.18543)项目页面(https://ceobench.com/)GitHub1(https://github.com/zlab-princeton/ceobench-src)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.18543)
在您的智能体中获取这篇论文:
hf papers read 2606.18543
没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.18543 以在此页面链接。
引用此论文的数据集 0
暂无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.18543 以在此页面链接。
引用此论文的 Space 0
暂无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.18543 以在此页面链接。
包含此论文的收藏集 1
相似文章
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
PlanBench-XL:评估大规模工具生态系统中LLM工具使用代理的长期规划能力
PlanBench-XL是一个新的基准测试,用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示,GPT-5.4在无阻断设置下仅达到51.9%的准确率,而在严重阻断条件下骤降至11.36%,凸显了长期规划中的重大挑战。
LLM能否担任CEO?基于多角色智能体模拟的战略资源重新配置基准测试
本文介绍CEO-Bench,一个用于评估LLM在CEO级战略资源重新配置上的多智能体基准,揭示了系统性故障模式以及结构性的整合-大胆权衡。
@dair_ai:关于长时程智能体的杰出论文(建议收藏)——类似人类,如何让智能体在困难任务中坚持下去?
AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。
WorkBench再访:两年后的工作场所智能体
本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。