CEO-Bench:智能体能否玩转长线游戏?

Hugging Face Daily Papers 论文

摘要

CEO-Bench 引入了一个模拟基准测试,评估语言模型智能体在500天内管理初创公司的能力,测试内容包括长期规划、噪声处理、适应性和多任务协调。结果显示,即使是最强的模型也表现挣扎,只有Claude Opus 4.8和GPT-5.5的最终余额高于起始资金。

语言模型智能体正在成为孤立、短期任务的熟练执行者,例如软件工程和客户服务。然而,现实世界的挑战需要多种复杂技能的整合,而这些技能在智能体中仍未得到充分测试:(1) 在不确定环境中驾驭长期视野;(2) 在嘈杂环境中获取信息;(3) 适应不断变化的世界;(4) 协调多个活动部分以实现一致目标。我们引入了CEO-Bench,通过模拟一个具有代表性的现实世界任务——运营一家初创公司500天——来综合评估这些能力。智能体通过可编程的Python接口管理一家虚构公司的定价、营销、预算等多个方面,与人类CEO一样在相同环境下面临相同挑战。成功需要分析嘈杂且相互关联的商业数据库,将信号转化为合理的策略,并通过编程协调众多决策。最强的智能体会编写复杂的代码,模拟客户群以预测未来现金流,并挖掘谈判历史以揭示隐藏的客户偏好。即便如此,大多数最先进的模型在此环境中表现挣扎。只有Claude Opus 4.8和GPT-5.5的最终余额高于100万美元的起始资金,而且两者都无法持续盈利。CEO-Bench迈出了衡量驱动持续、自适应进步所需智能的第一步。
查看原文
查看缓存全文

缓存时间: 2026/06/18 03:55

论文页面 - CEO-Bench:智能体能否玩好长期博弈?

来源:https://huggingface.co/papers/2606.18543

摘要

CEO-Bench 通过一个Python接口,评估语言模型智能体在模拟初创公司500天运营中的能力,测试其在长期规划、噪声处理、适应性及多任务协调方面的熟练程度。

语言模型智能体(https://huggingface.co/papers?q=Language%20model%20agents)在软件工程、客户服务等孤立、短期的任务上已变得相当熟练。然而,现实世界的挑战要求综合多种复杂技能,而这些技能在智能体中大多未经测试:(1)在不确定性下穿越长期视野(https://huggingface.co/papers?q=long%20horizons);(2)在嘈杂环境(https://huggingface.co/papers?q=noisy%20environments)中获取信息;(3)适应变化的世界(https://huggingface.co/papers?q=changing%20world);(4)协调多个活动的部分以实现一致的目标。我们提出CEO-Bench,通过模拟一个具有代表性的现实任务——运营一家初创公司500天——来统一评估这些能力。智能体通过可编程的Python接口(https://huggingface.co/papers?q=programmable%20Python%20interface)管理虚构公司的定价、营销、预算等众多方面,在同样的环境中与人类CEO面临同样的挑战。成功需要分析嘈杂、互联的商业数据库(https://huggingface.co/papers?q=business%20databases),将信号转化为合理的战略,并通过编程协调众多决策。最强的智能体能够编写复杂代码来模拟客户群组(https://huggingface.co/papers?q=customer%20cohorts)以预测未来现金流,并挖掘谈判历史(https://huggingface.co/papers?q=negotiation%20history)以发现隐藏的客户偏好。即便如此,大多数最先进的模型在此环境中仍然表现挣扎。只有Claude Opus 4.8和GPT-5.5的最终余额超过起始的100万美元,而且两者都无法持续盈利。CEO-Bench在衡量驱动持续、适应性进步(https://huggingface.co/papers?q=adaptive%20progress)所需的智能方面迈出了第一步。

查看 arXiv 页面(https://arxiv.org/abs/2606.18543)查看 PDF(https://arxiv.org/pdf/2606.18543)项目页面(https://ceobench.com/)GitHub1(https://github.com/zlab-princeton/ceobench-src)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.18543)

在您的智能体中获取这篇论文:

hf papers read 2606.18543

没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.18543 以在此页面链接。

引用此论文的数据集 0

暂无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.18543 以在此页面链接。

引用此论文的 Space 0

暂无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.18543 以在此页面链接。

包含此论文的收藏集 1

相似文章

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。

@dair_ai:关于长时程智能体的杰出论文(建议收藏)——类似人类,如何让智能体在困难任务中坚持下去?

X AI KOLs Following

AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。

WorkBench再访:两年后的工作场所智能体

arXiv cs.CL

本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。