CoffeeBench:异构多智能体经济中长期任务LLM智能体的基准测试
摘要
CoffeeBench 是一个用于在长期多智能体经济模拟中评估 LLM 智能体的基准测试,其中企业互动 90 天以最大化利润,揭示了不同模型在通信模式和性能上的差异。
查看缓存全文
缓存时间: 2026/06/26 10:06
论文页面 - CoffeeBench:异构多智能体经济中长周期LLM智能体的基准测试
来源:https://huggingface.co/papers/2606.16613
摘要
CoffeeBench 评估了 LLM 智能体在多智能体经济模拟中的表现,其中企业通过 90 天的互动来最大化利润,揭示了不同模型在沟通模式与性能上的差异。
随着 LLM 智能体(https://huggingface.co/papers?q=LLM%20agents)能够处理日益复杂的 长周期任务(https://huggingface.co/papers?q=long-horizon%20tasks),评估它们在 经济体系(https://huggingface.co/papers?q=economic%20systems)中的表现变得愈发重要。与现有主要评估单个智能体与被动环境交互的基准不同,经济体系(https://huggingface.co/papers?q=economic%20systems)本质上具有多智能体特性,要求 自主智能体(https://huggingface.co/papers?q=autonomous%20agents)在追求自身目标的同时进行沟通、谈判和 交易(https://huggingface.co/papers?q=transact),并持续较长时间。我们推出了 CoffeeBench,这是一个用于评估 LLM 智能体(https://huggingface.co/papers?q=LLM%20agents)在由异构企业组成的 长周期多智能体经济(https://huggingface.co/papers?q=multi-agent%20economy)中的基准测试。在 CoffeeBench 中,两名农民、两名烘焙商和两名零售商在 90 天的模拟中自主运营业务,每个智能体都试图通过 沟通(https://huggingface.co/papers?q=communication)和 交易(https://huggingface.co/papers?q=transact)来最大化 累计净收入(https://huggingface.co/papers?q=cumulative%20net%20income),同时管理现金、库存和定价。被评估的模型控制一家咖啡烘焙商,而其余企业则由固定的参考智能体控制。在多个近期开权重和专有 LLM 中,所有模型都优于不采取任何行动的被动基线,大多数模型实现了正净收入。对 智能体行为(https://huggingface.co/papers?q=agent%20behavior)的分析揭示了长周期经济互动中的显著差异:表现更好的模型与其他企业沟通更活跃,而 Claude Haiku 4.5 表现出一种“空闲漂移”的失败模式,尽管能产生连贯的评估和计划,却反复选择不行动。我们发布了代码和智能体轨迹以支持未来的研究。
查看 arXiv 页面(https://arxiv.org/abs/2606.16613)查看 PDF(https://arxiv.org/pdf/2606.16613)项目页面(https://pub.sakana.ai/coffeebench/index.html)GitHub(https://github.com/SakanaAI/CoffeeBench)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.16613)
在您的智能体中获取这篇论文:
hf papers read 2606.16613
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.16613 以从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.16613 以从此页面链接。
引用此论文的 Space0
没有 Space 链接到此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.16613 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到 收藏集(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
EComAgentBench:面向长周期任务与分布式隐藏意图的购物代理基准测试
介绍EComAgentBench,一个用于评估基于LLM的购物代理在长周期任务中处理隐藏意图的基准测试,这些意图分布在查询、用户画像和澄清过程中。该基准测试使用真实的亚马逊产品并进行自动评分,结果显示即使是最佳模型也仅达到57.1%的准确率。
Agent Bazaar:在多智能体市场中实现经济对齐
介绍Agent Bazaar,一个用于评估LLMs经济对齐的多智能体模拟框架,识别出算法不稳定性和Sybil欺骗等失败模式,并通过针对性强化学习训练出一个超越前沿模型的9B模型。
LLM能否担任CEO?基于多角色智能体模拟的战略资源重新配置基准测试
本文介绍CEO-Bench,一个用于评估LLM在CEO级战略资源重新配置上的多智能体基准,揭示了系统性故障模式以及结构性的整合-大胆权衡。
CollabBench:通过主动参与与多样玩家基准测试并释放LLM协作能力
CollabBench是一个新的基准测试,用于评估和训练LLM智能体在合作游戏中的表现,具有多样玩家模拟和协作训练范式。实验表明,与基础模型相比,效率提高19.5%,情感性能提升24.4%。
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。