Agent Bazaar:在多智能体市场中实现经济对齐

Hugging Face Daily Papers 论文

摘要

介绍Agent Bazaar,一个用于评估LLMs经济对齐的多智能体模拟框架,识别出算法不稳定性和Sybil欺骗等失败模式,并通过针对性强化学习训练出一个超越前沿模型的9B模型。

将大型语言模型(LLMs)部署为自主经济智能体会引入超出个体能力失败的系统性风险。随着智能体转向直接与市场交互,它们的集体行为可能放大波动性并大规模掩盖欺骗行为。我们引入了Agent Bazaar,一个用于评估经济对齐的多智能体模拟框架,经济对齐是指智能体系统维护市场稳定和完整性的能力。我们识别出两种失败模式:(1)B2C市场中的算法不稳定性(“崩溃”),其中公司放大价格波动直至市场崩溃;(2)C2C市场中的Sybil欺骗(“柠檬市场”),其中单个欺骗性智能体控制多个协调的卖家身份,用欺诈性列表淹没市场,侵蚀信任和消费者福利。我们在两种场景下评估了前沿和开放权重模型,发现模型在很大程度上无法自我调节,失败严重程度因模型而异,而非因规模而异。我们提出了经济对齐的约束装置——稳定公司和怀疑守护者,它们改善了结果,但在更困难的市场条件下仍然脆弱。为弥补这一差距,我们使用自适应课程训练了采用REINFORCE++的智能体,产生了一个9B模型,其表现优于所有评估的前沿和开放权重模型。我们提出了经济对齐分数(EAS),一个由稳定性、完整性、福利和盈利能力聚合而成的四分量标量指标,支持直接跨模型比较。我们的结果表明,经济对齐与通用能力正交,并且可以通过针对性强化学习直接训练。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:30

论文页面 - Agent Bazaar: 在多智能体市场中实现经济对齐

来源:https://huggingface.co/papers/2605.17698

摘要

作为自主经济智能体部署的大型语言模型,通过市场不稳定性和欺骗行为展现出系统性风险,这些风险可以通过专门的模拟框架和强化学习技术进行评估和改进。

部署大型语言模型(Large Language Models)作为自主经济智能体会引入超出个体能力失败范围的系统性风险。随着智能体转向直接与市场交互,它们的集体行为可能放大波动性并掩盖大规模欺骗。我们提出 Agent Bazaar,一个用于评估“经济对齐”(Economic Alignment)的多智能体模拟框架,即智能体系统维护市场稳定性和完整性的能力。我们识别出两种失败模式:(1) B2C 市场中的算法不稳定(Algorithmic Instability)(“崩盘”),其中企业放大价格波动直至市场崩溃;(2) C2C 市场中的女巫欺骗(Sybil Deception)(“柠檬市场”),其中单个欺骗性智能体控制多个协调的卖方身份,用欺诈性列表淹没市场,侵蚀信任和消费者福利。我们在两种场景下评估了前沿和开源模型,发现模型在很大程度上无法自我调节,失败严重程度因模型而异,而非因尺寸而异。我们提出了经济对齐的“马具”(harnesses)——稳定企业和怀疑守护者——这些设计改善了结果,但在更苛刻的市场条件下仍然脆弱。为了弥补这一差距,我们使用自适应课程(adaptive curriculum)的 REINFORCE++ 方法训练智能体,产生了一个 9B 模型,其性能优于所有评估的前沿和开源模型。我们提出了经济对齐分数(Economic Alignment Score, EAS),一个四分量标量指标,综合了稳定性、完整性、福利和盈利能力,支持直接的跨模型比较。我们的结果表明,经济对齐(economic alignment)与通用能力正交,并且可以通过有针对性的强化学习直接训练。

查看 arXiv 页面(https://arxiv.org/abs/2605.17698)查看 PDF(https://arxiv.org/pdf/2605.17698)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.17698)

在你的智能体中获取此论文:

hf papers read 2605.17698

没有最新的 CLI?运行 curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.17698 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.17698 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.17698 以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

思维经济:基于经济交互的新型多智能体智能涌现

Hugging Face Daily Papers

本文提出了一种受哈耶克经济理论启发的“智能体经济”框架,其中智能体通过基于拍卖的竞争和经济选择实现自组织,无需集中控制即可产生涌现的多步推理和集体智能。该框架在包括数学推理、金融研究和科学研究在内的五项智能体任务中,均优于更强的单一架构基线模型。

TradingAgents:多智能体 LLM 金融交易框架

Papers with Code Trending

本文介绍了 TradingAgents,这是一个多智能体 LLM 框架,通过模拟现实世界中的交易公司来提升股票交易表现。该框架利用执行分析和风险管理的专用智能体,在累计收益和夏普比率方面优于基线模型。

AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者

arXiv cs.CL

本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。

QuantAgent:基于价格驱动的多智能体大语言模型高频交易框架

Papers with Code Trending

QuantAgent 是一个专为高频交易设计的多智能体大语言模型框架,通过四个专业智能体(指标、形态、趋势、风险)基于短周期信号快速做出具有风险意识的交易决策。在对比比特币和纳斯达克期货在内的十种金融工具的零样本评估中,该框架在预测准确率和累计收益方面均优于现有的神经网络和规则驱动基线模型。