CoffeeBench：异构多智能体经济中长期任务LLM智能体的基准测试

Hugging Face Daily Papers 2026/06/15 00:00 论文

llm-agents multi-agent benchmark economic-simulation long-horizon coffeebench

摘要

CoffeeBench 是一个用于在长期多智能体经济模拟中评估 LLM 智能体的基准测试，其中企业互动 90 天以最大化利润，揭示了不同模型在通信模式和性能上的差异。

随着LLM智能体能够执行越来越长期的任务，评估它们在经济系统中的表现变得日益重要。与现有主要评估单个智能体与被动环境交互的基准不同，经济系统本质上是多智能体的，要求自主智能体在追求自身目标的同时进行沟通、协商和交易，且持续时间较长。我们推出了CoffeeBench，这是一个用于在由异构企业组成的长期多智能体经济中评估LLM智能体的基准测试。在CoffeeBench中，两名农民、两名烘焙师和两名零售商在90天的模拟中自主经营业务，各自通过沟通和交易来最大化累积净收入，同时管理现金、库存和定价。被评估的模型控制一家咖啡烘焙商，而其余企业由固定的参考智能体控制。在多个最新的开放权重和专有LLM中，所有模型的表现均优于不采取任何行动的被动基线，且大多数实现了正净收入。对智能体行为的分析揭示了长期经济互动中的显著差异：表现较好的模型与其他企业的沟通更活跃，而Claude~Haiku~4.5则表现出空闲漂移的故障模式，尽管能生成连贯的评估和计划，却反复选择不作为。我们公开了代码和智能体轨迹，以支持未来研究。

查看原文

查看缓存全文

缓存时间: 2026/06/26 10:06

论文页面 - CoffeeBench：异构多智能体经济中长周期LLM智能体的基准测试

来源：https://huggingface.co/papers/2606.16613

摘要

CoffeeBench 评估了 LLM 智能体在多智能体经济模拟中的表现，其中企业通过 90 天的互动来最大化利润，揭示了不同模型在沟通模式与性能上的差异。

随着 LLM 智能体（https://huggingface.co/papers?q=LLM%20agents）能够处理日益复杂的长周期任务（https://huggingface.co/papers?q=long-horizon%20tasks），评估它们在经济体系（https://huggingface.co/papers?q=economic%20systems）中的表现变得愈发重要。与现有主要评估单个智能体与被动环境交互的基准不同，经济体系（https://huggingface.co/papers?q=economic%20systems）本质上具有多智能体特性，要求自主智能体（https://huggingface.co/papers?q=autonomous%20agents）在追求自身目标的同时进行沟通、谈判和交易（https://huggingface.co/papers?q=transact），并持续较长时间。我们推出了 CoffeeBench，这是一个用于评估 LLM 智能体（https://huggingface.co/papers?q=LLM%20agents）在由异构企业组成的长周期多智能体经济（https://huggingface.co/papers?q=multi-agent%20economy）中的基准测试。在 CoffeeBench 中，两名农民、两名烘焙商和两名零售商在 90 天的模拟中自主运营业务，每个智能体都试图通过沟通（https://huggingface.co/papers?q=communication）和交易（https://huggingface.co/papers?q=transact）来最大化累计净收入（https://huggingface.co/papers?q=cumulative%20net%20income），同时管理现金、库存和定价。被评估的模型控制一家咖啡烘焙商，而其余企业则由固定的参考智能体控制。在多个近期开权重和专有 LLM 中，所有模型都优于不采取任何行动的被动基线，大多数模型实现了正净收入。对智能体行为（https://huggingface.co/papers?q=agent%20behavior）的分析揭示了长周期经济互动中的显著差异：表现更好的模型与其他企业沟通更活跃，而 Claude Haiku 4.5 表现出一种“空闲漂移”的失败模式，尽管能产生连贯的评估和计划，却反复选择不行动。我们发布了代码和智能体轨迹以支持未来的研究。

查看 arXiv 页面（https://arxiv.org/abs/2606.16613）查看 PDF（https://arxiv.org/pdf/2606.16613）项目页面（https://pub.sakana.ai/coffeebench/index.html）GitHub（https://github.com/SakanaAI/CoffeeBench）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.16613）

在您的智能体中获取这篇论文：

hf papers read 2606.16613

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.16613 以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.16613 以从此页面链接。

引用此论文的 Space0

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.16613 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到收藏集（https://huggingface.co/new-collection）中以从此页面链接。

CoffeeBench：异构多智能体经济中长期任务LLM智能体的基准测试

论文页面 - CoffeeBench：异构多智能体经济中长周期LLM智能体的基准测试

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

EComAgentBench：面向长周期任务与分布式隐藏意图的购物代理基准测试

Agent Bazaar：在多智能体市场中实现经济对齐

LLM能否担任CEO？基于多角色智能体模拟的战略资源重新配置基准测试

CollabBench：通过主动参与与多样玩家基准测试并释放LLM协作能力

WildClawBench：真实世界长周期智能体评估基准

提交意见反馈