CoffeeBench:异构多智能体经济中长期任务LLM智能体的基准测试

Hugging Face Daily Papers 论文

摘要

CoffeeBench 是一个用于在长期多智能体经济模拟中评估 LLM 智能体的基准测试,其中企业互动 90 天以最大化利润,揭示了不同模型在通信模式和性能上的差异。

随着LLM智能体能够执行越来越长期的任务,评估它们在经济系统中的表现变得日益重要。与现有主要评估单个智能体与被动环境交互的基准不同,经济系统本质上是多智能体的,要求自主智能体在追求自身目标的同时进行沟通、协商和交易,且持续时间较长。我们推出了CoffeeBench,这是一个用于在由异构企业组成的长期多智能体经济中评估LLM智能体的基准测试。在CoffeeBench中,两名农民、两名烘焙师和两名零售商在90天的模拟中自主经营业务,各自通过沟通和交易来最大化累积净收入,同时管理现金、库存和定价。被评估的模型控制一家咖啡烘焙商,而其余企业由固定的参考智能体控制。在多个最新的开放权重和专有LLM中,所有模型的表现均优于不采取任何行动的被动基线,且大多数实现了正净收入。对智能体行为的分析揭示了长期经济互动中的显著差异:表现较好的模型与其他企业的沟通更活跃,而Claude~Haiku~4.5则表现出空闲漂移的故障模式,尽管能生成连贯的评估和计划,却反复选择不作为。我们公开了代码和智能体轨迹,以支持未来研究。
查看原文
查看缓存全文

缓存时间: 2026/06/26 10:06

论文页面 - CoffeeBench:异构多智能体经济中长周期LLM智能体的基准测试

来源:https://huggingface.co/papers/2606.16613

摘要

CoffeeBench 评估了 LLM 智能体在多智能体经济模拟中的表现,其中企业通过 90 天的互动来最大化利润,揭示了不同模型在沟通模式与性能上的差异。

随着 LLM 智能体(https://huggingface.co/papers?q=LLM%20agents)能够处理日益复杂的 长周期任务(https://huggingface.co/papers?q=long-horizon%20tasks),评估它们在 经济体系(https://huggingface.co/papers?q=economic%20systems)中的表现变得愈发重要。与现有主要评估单个智能体与被动环境交互的基准不同,经济体系(https://huggingface.co/papers?q=economic%20systems)本质上具有多智能体特性,要求 自主智能体(https://huggingface.co/papers?q=autonomous%20agents)在追求自身目标的同时进行沟通、谈判和 交易(https://huggingface.co/papers?q=transact),并持续较长时间。我们推出了 CoffeeBench,这是一个用于评估 LLM 智能体(https://huggingface.co/papers?q=LLM%20agents)在由异构企业组成的 长周期多智能体经济(https://huggingface.co/papers?q=multi-agent%20economy)中的基准测试。在 CoffeeBench 中,两名农民、两名烘焙商和两名零售商在 90 天的模拟中自主运营业务,每个智能体都试图通过 沟通(https://huggingface.co/papers?q=communication)和 交易(https://huggingface.co/papers?q=transact)来最大化 累计净收入(https://huggingface.co/papers?q=cumulative%20net%20income),同时管理现金、库存和定价。被评估的模型控制一家咖啡烘焙商,而其余企业则由固定的参考智能体控制。在多个近期开权重和专有 LLM 中,所有模型都优于不采取任何行动的被动基线,大多数模型实现了正净收入。对 智能体行为(https://huggingface.co/papers?q=agent%20behavior)的分析揭示了长周期经济互动中的显著差异:表现更好的模型与其他企业沟通更活跃,而 Claude Haiku 4.5 表现出一种“空闲漂移”的失败模式,尽管能产生连贯的评估和计划,却反复选择不行动。我们发布了代码和智能体轨迹以支持未来的研究。

查看 arXiv 页面(https://arxiv.org/abs/2606.16613)查看 PDF(https://arxiv.org/pdf/2606.16613)项目页面(https://pub.sakana.ai/coffeebench/index.html)GitHub(https://github.com/SakanaAI/CoffeeBench)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.16613)

在您的智能体中获取这篇论文:

hf papers read 2606.16613

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.16613 以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.16613 以从此页面链接。

引用此论文的 Space0

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.16613 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到 收藏集(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

Agent Bazaar:在多智能体市场中实现经济对齐

Hugging Face Daily Papers

介绍Agent Bazaar,一个用于评估LLMs经济对齐的多智能体模拟框架,识别出算法不稳定性和Sybil欺骗等失败模式,并通过针对性强化学习训练出一个超越前沿模型的9B模型。

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。