多智能体强化学习中的量子优势

arXiv cs.LG 论文

摘要

本文提供了实证证据,表明量子纠缠在多智能体强化学习中提供了可测量的优势,通过CHSH游戏和协作导航任务展示了相对于经典基线的性能提升。

arXiv:2605.14235v1 Announce Type: new 摘要:我们针对量子多智能体强化学习(QMARL)中的智能体协调问题,对量子纠缠进行了实证评估。尽管QMARL最近引起了越来越多的关注,但大多数先前的工作在没有可证明基线的情况下评估量子策略,使得无法严格区分量子优势与算法巧合。我们通过评估一个去中心化的QMARL框架来直接解决这个问题,该框架使用带有共享纠缠态的变分量子电路(VQC)智能体。在数学上已证明经典性能上限为0.75胜率的CHSH游戏中,我们展示了纠缠的QMARL智能体逼近Tsirelson极限0.854,这为其量子优势提供了明确证据。我们表明,非纠缠的量子电路与经典基线相匹配,证实了纠缠(而非量子电路本身)是主动协调机制。我们还探讨了特定纠缠结构的影响,因为一些贝尔态能够带来协调增益,而另一些则会主动损害性能。在协作导航(CoopNav)中,无纠缠的QMARL在成功率上比经典MAA2C提高了约$\sim2\times$(约0.85对约0.40),混合配置(量子智能体与经典集中式评论家配对)的性能超过了全经典和全量子解决方案。我们展示了我们的实验分析并讨论了未来的工作。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:28

# 多智能体强化学习中的量子优势
来源:https://arxiv.org/html/2605.14235
Simranjeet Singh Dahia, Claudia Szabo 澳大利亚阿德莱德大学 \{simranjeetsingh\.dahia, claudia\.szabo\}@adelaide\.edu\.au

###### 摘要

我们呈现了量子多智能体强化学习(\(QMARL\))中智能体协调的量子纠缠的实证评估。尽管QMARL近来吸引了越来越多的兴趣,但大多数先前的工作在没有可验证基线的情况下评估量子策略,这使得无法严格区分量子优势与算法偶然性。我们直接解决此问题,通过评估一个具有共享纠缠态的变分量子电路\(VQC\)演员的分散式QMARL框架。在CHSH博弈中,该博弈具有数学证明的经典性能上限0.75胜率,我们展示纠缠的QMARL智能体接近Tsirelson极限0.854,为其量子优势提供了清晰证据。我们证明非纠缠量子电路匹配经典基线,确认纠缠本身(而非量子电路)才是活跃的协调机制。我们还探索了特定纠缠结构的影响,因为某些贝尔态能够实现协调增益,而另一些则主动损害性能。在合作导航(CoopNav)中,无纠缠的QMARL在成功率上相较于经典MAA2C实现了约\(2\times\)的改进(约0.85对约0.40),其中混合配置(量子演员搭配经典集中式评论家)同时优于全经典和全量子的解决方案。我们呈现了实验分析并讨论了未来工作。

## 1 引言

多智能体强化学习(MARL)已成为建模多智能体系统中序列决策的领先计算范式zhang\_multi\-agent\_2021 (https://arxiv.org/html/2605.14235#bib.bib1);hernandez2019surveyppr (https://arxiv.org/html/2605.14235#bib.bib2)。通过将每个组件视为独立学习智能体,MARL提供了一种机制来捕获表征复杂系统的非线性相互依赖性和涌现动力学oroojlooyjadid\_review\_2021 (https://arxiv.org/html/2605.14235#bib.bib3)。集中式训练与分散式执行(CTDE)范式,以及解决合作策略梯度lowe\_multi\-agent\_2020 (https://arxiv.org/html/2605.14235#bib.bib4)和价值分解sunehag\_value\-decomposition\_2017 (https://arxiv.org/html/2605.14235#bib.bib5)等挑战的方法,已在游戏、机器人协调和网络优化中产生了有吸引力的结果kraemer\_multi\-agent\_2016 (https://arxiv.org/html/2605.14235#bib.bib6)。然而,作为分散式部分可观察马尔可夫决策过程(Dec\-POMDP)的结果,基于局部观测行动的经典MARL智能体可能收敛到局部最优但全局次优的策略,因为独立行动的智能体在执行时无法访问彼此的观测wen\_multi\-agent\_2022 (https://arxiv.org/html/2605.14235#bib.bib7)。克服这一点需要显式通信(产生带宽成本和可扩展性瓶颈)marl\_learning\_to\_communicate\_2016 (https://arxiv.org/html/2605.14235#bib.bib8)、集中式协调(牺牲隐私、自治性和鲁棒性)bernstein\_complexity\_2002 (https://arxiv.org/html/2605.14235#bib.bib9)或无需通信的协调机制(隐式对齐智能体策略)wen\_multi\-agent\_2022 (https://arxiv.org/html/2605.14235#bib.bib7)。

量子力学为训练和协调机制提供了一个引人注目的候选方案,即**纠缠**,其中智能体通过设计能够意识到其训练和状态。当智能体共享一个预制备的纠缠量子态时,它们的局部测量结果以没有经典公式化的方式内在相关brunner2014bellnonlocality (https://arxiv.org/html/2605.14235#bib.bib10)。重要的是,在分散式MARL场景中,这些相关性通过设计在执行前建立,并在运行时无需智能体间任何经典通信即可局部利用。这一性质已在量子信息论和量子博弈论(QGT)中得到广泛研究Eisert1999QuantumGames (https://arxiv.org/html/2605.14235#bib.bib11),其中量子策略已被证明能够打破协调任务中的经典性能极限brunner2014bellnonlocality (https://arxiv.org/html/2605.14235#bib.bib10);Eisert1999QuantumGames (https://arxiv.org/html/2605.14235#bib.bib11)。我们的中心假设是,相同的机制可以作为MARL智能体在分散式设置中行动的隐式协调机制,使得建模否则经典独立智能体无法访问的行为成为可能。

参见图注图1:CTDE下的QMARL:智能体独立执行分散式量子策略;一个集中式评论家使用全局状态和联合行动训练所有智能体。在具有涌现动力学的分散式多智能体设置中,瓶颈很少是计算速度,而是代理协调的质量和结构bernstein\_complexity\_2002 (https://arxiv.org/html/2605.14235#bib.bib9)。独立智能体,无论多么强大,都会收敛到次优均衡,因为它们的策略缺乏对全局协调信息的访问wen\_multi\-agent\_2022 (https://arxiv.org/html/2605.14235#bib.bib7)。我们认为量子计算不仅仅加速现有MARL算法。使用量子机制有可能实现一类不同的协调策略,这些策略在理论上超出了经典分散式独立智能体的能力范围brunner2014bellnonlocality (https://arxiv.org/html/2605.14235#bib.bib10);clauser\_proposed\_1969 (https://arxiv.org/html/2605.14235#bib.bib12)。

量子强化学习(QRL)和量子MARL(QMARL)吸引了越来越多的关注yun\_quantum\_2022 (https://arxiv.org/html/2605.14235#bib.bib13);chen\_qmarl\_2024 (https://arxiv.org/html/2605.14235#bib.bib14);jerbi2021\_parametrized\_quantum\_rl (https://arxiv.org/html/2605.14235#bib.bib15),其中混合量子-经典方法使用变分量子电路(VQC)作为参数化策略网络skolik\_quantum\_2022 (https://arxiv.org/html/2605.14235#bib.bib16)。然而,现有工作主要将经典网络组件替换为量子对应物,并关注VQC能否取代经典神经网络。相比之下,我们专注于理解量子现象(如纠缠和非局域相关性)对探索-利用平衡的影响。此外,大多数QMARL结果是在没有严格经典基线的玩具基准上评估的,这使得无法严格声称量子优势qmarl\_vqc\_design\_2022 (https://arxiv.org/html/2605.14235#bib.bib17);kesiku\_how\_2026 (https://arxiv.org/html/2605.14235#bib.bib18)。在这项工作中,我们专注于严格分析纠缠的好处。我们选择了一个具有经典性能极限证明的问题,其中没有经典分散式策略能超过已知上界,并将量子优势定义为QMARL智能体是否利用纠缠超过这个证明上界。我们工作的**贡献**有三点:(i) 我们确立了分散式多智能体系统中的量子优势可以源于基于纠缠的协调。(ii) 我们证明共享纠缠态的分散式量子智能体超过了经典性能上限,并且纠缠结构至关重要,某些纠缠变体实际上损害了协调。(iii) 我们展示了一个混合量子-经典CTDE在合作导航基准上优于全经典和全量子CTDE。

## 2 相关工作

经典MARL将合作和竞争多智能体问题形式化为Dec\-POMDPsbernstein\_complexity\_2002 (https://arxiv.org/html/2605.14235#bib.bib9),其中基于部分观测行动的分散式智能体必须在无运行时通信的情况下学习集体最优策略。这通过集中式训练与分散式执行(CTDE)lowe\_multi\-agent\_2020 (https://arxiv.org/html/2605.14235#bib.bib4)进行优化,该框架允许训练时使用全局评论家,同时保持分散式执行。我们的工作采用CTDE作为训练框架,并询问将经典演员替换为变分量子电路是否会改变可实现的协调性。

我们将基于VQC的策略扩展到CTDE下的多智能体设置,并询问是否纠缠本身(而非仅仅是量子电路)能够实现更复杂的协调机制。最直接相关的作品eQMARL (https://arxiv.org/html/2605.14235#bib.bib19)提出了一个纠缠辅助的CTDE框架,其中共享量子态通过量子评论家耦合分散式智能体。eQMARL在小型合作设置中展示了协调增益,并且在动机上与我们的工作最为接近。然而,它仅在任意MARL基准上评估,而没有严格紧致的经典基线,这使得无法将改进专门归因于纠缠而非模型容量或算法差异。我们的工作直接通过将评估建立在具有数学证明经典上限的问题上来解决这一差距。

另一个与我们的CHSH实验密切相关的工作gardiner\_learning\_2026 (https://arxiv.org/html/2605.14235#bib.bib20)通过在训练时依赖集中式量子协调器的输出来展示非局域博弈中的量子优势。他们的方法取得了强劲结果,但协调器在运行时充当共享模型,使得架构准集中式而非真正的分散式多智能体设置。作者明确承认了这一局限性,指出他们的框架在训练时提供了协调优势。我们的设置严格是分散式的;每个智能体是一个独立的VQC,仅测量预制备纠缠态中属于自己的部分,在运行时没有共享模型。这代表了一个更难且更现实的问题设置,要求智能体在没有集中式协调的情况下独立学会利用纠缠。

Eisert等人Eisert1999QuantumGames (https://arxiv.org/html/2605.14235#bib.bib11)和Meyermeyer1999\_quantum\_strategies (https://arxiv.org/html/2605.14235#bib.bib21)研究了双人博弈中的量子策略,表明纠缠玩家可以访问经典策略无法获得的收益区域。Brunner等人brunner2014bellnonlocality (https://arxiv.org/html/2605.14235#bib.bib10)提供了贝尔非局域性的权威处理,其中CHSH不等式clauser\_proposed\_1969 (https://arxiv.org/html/2605.14235#bib.bib12)是主要例子。Tsirelson界cirelson\_quantum\_1980 (https://arxiv.org/html/2605.14235#bib.bib22)建立了可能的量子最大值为\(\cos^{2}(\pi/8)\approx 0.854\)。这些结果构成我们使用CHSH作为校准基准的理论基础:它提供了一个经典性能有证明上界、量子目标已知、任何持续更高的胜率构成量子优势明确证据的问题。据我们所知,我们是第一个在完整MARL训练循环中使用CHSH作为严格校准基准且具有真正分散式智能体的工作。

## 3 方法

我们的工作专注于理解使用QMARL相对于MARL框架的好处,特别是确定框架中哪些部分受益于量子表述,以及将量子纠缠集成到MARL流程中的好处。在我们的实验分析中,我们考虑了三个复杂度递增的环境:具有经典证明界的CHSH,以及两个标准MARL基准环境CoinGame和CoopNav。我们专注于合作型多智能体系统,其中智能体必须在无通信的共享环境中协同工作,并且可以选择利用共享量子纠缠作为协调资源。这被形式化为分散式部分可观察马尔可夫决策过程(Dec\-POMDP)bernstein\_complexity\_2002 (https://arxiv.org/html/2605.14235#bib.bib9)。

本节描述了所有实验中采用的通用学习框架、量子策略架构和训练算法。图1 (https://arxiv.org/html/2605.14235#S1.F1)展示了本工作中采用的CTDE下的通用QMARL框架。

我们考虑具有\(\geq 2\)个智能体在共享环境中交互的合作型多智能体系统。在每个时间步\(t\),环境处于某个全局状态\(s^{t}\),每个智能体\(i\)从环境中接收局部观测\(o_{i}^{t}\)。仅使用这个局部观测,智能体\(i\)根据其策略\(\pi_{i}\)选择一个行动\(a_{i}^{t}\)。所有智能体同时行动,产生联合行动\(\textbf{a}^{t}=(a_{1}^{t},...,a_{N}^{t})\)。然后环境转换到新的更新状态,所有智能体接收共享奖励\(r^{t}=r(s^{t},\textbf{a}^{t})\)。

因此,智能体的目标是找到策略\(\theta_{1},...,\theta_{N}\),以最大化团队在长度为\(T\)的回合中的预期总回报,如下所示:

\[J(\theta_{1},\ldots,\theta_{N})=\mathbb{E}\!\left[\sum_{t=0}^{T}\gamma^{t}r^{t}\right] \tag{1}\]

其中\(\gamma\in(0,1]\)是未来奖励的折扣因子。

在执行时,每个智能体仅使用其局部观测\(o_{i}^{t}\)行动;没有智能体在执行期间能够访问其他智能体的观测、行动或内部状态。这是我们在所有实验中实施的标准化分散式执行约束,使得合作MARL变得困难:**独立基于局部信息行动的经典智能体会收敛到次优的集体行为,这是一个对于\(N\geq 2\)个智能体已被证明是NEXP-完全的问题**bernstein\_complexity\_2002 (https://arxiv.org/html/2605.14235#bib.bib9)。

相反,在我们实验的量子变体中,智能体在回合开始前共享一个预制备的纠缠量子态\(|\Psi\rangle\)。来自该纠缠态的一个或多个量子比特分配给每个智能体。因此,虽然每个智能体仅对其量子比特(私有观测)施加局部量子操作并私下测量,但结果与其他智能体测量的结果相关,即使智能体之间没有显式的经典信息共享。这是量子纠缠的关键性质brunner2014bellnonlocality (https://arxiv.org/html/2605.14235#bib.bib10)。在我们的实验中,我们在执行时强制执行相同的严格无通信约束,并考虑经典、无纠缠和纠缠的量子实现。这确保了量子与经典智能体之间的任何性能差距不能归因于信息交换,而只能归因于纠缠。我们使用集中式训练、分散式执行(CTDE)作为学习框架,MAA2Cmnih\_asynchronous\_2016 (https://arxiv.org/html/2605.14235#bib.bib23)作为训练算法,并对CHSH博弈有特定考虑,详见附录D (https://arxiv.org/html/2605.14235#A4)。

这项工作得到了阿德莱德大学Phoenix HPC服务提供的超级计算资源的支持。

### 3.1 策略架构

#### 经典:

智能体\(i\)的经典演员是一个前馈神经网络,将局部观测\(o_{i}\)映射到离散行动上的softmax分布。集中式评论家使用全局状态\(s\)和联合行动\(\textbf{a}\)来估计优势函数。

相似文章

研究人员用量子计算机提升AI预测能力

Reddit r/singularity

# 研究人员用量子计算机提升AI预测能力 来源:[https://www.cnet.com/tech/services-and-software/researchers-use-quantum-computer-to-improve-ai-predictions/](https://www.cnet.com/tech/services-and-software/researchers-use-quantum-computer-to-improve-ai-predictions/) 量子计算机协助AI模型完成在传统计算机上需数周才能算出的计算。 ![Julian Dossett头像](https://www.cnet.com/a/img/resize/e869742f773a9d41939ee253577b93

QuantAgent:基于价格驱动的多智能体大语言模型高频交易框架

Papers with Code Trending

QuantAgent 是一个专为高频交易设计的多智能体大语言模型框架,通过四个专业智能体(指标、形态、趋势、风险)基于短周期信号快速做出具有风险意识的交易决策。在对比比特币和纳斯达克期货在内的十种金融工具的零样本评估中,该框架在预测准确率和累计收益方面均优于现有的神经网络和规则驱动基线模型。

AEM:用于多轮智能体强化学习的自适应熵调制

Hugging Face Daily Papers

本文介绍了AEM,这是一种用于智能体强化学习的无监督方法,通过在响应级别自适应调整熵动态来改善探索与利用之间的平衡。通过在ALFWorld和SWE-bench等基准测试上展示性能提升,该方法将不确定性估计与动作粒度对齐。

最大熵如何使强化学习更加稳健

ML at Berkeley

本文解释了将香农熵纳入强化学习目标函数,如何创造出更稳健的智能体,使其能够应对奖励和动态环境中出现的意外甚至对抗性变化。