自适应对手重复博弈中的遗憾最小化

Hugging Face Daily Papers 论文

摘要

本文介绍了重复策略遗憾(RP-Regret),一种用于自适应对手重复博弈中遗憾最小化的博弈论度量,并提出了三种算法来最小化它,表明这样做可以导致如猎鹿博弈中的合作均衡。

在本文中,我们研究的是与自适应对手(这些对手能根据历史对局做出反应)进行重复博弈时的遗憾最小化问题。在线学习中标准的外部遗憾度量已知无法捕捉这种自适应性。为了考虑玩家的反事实推理,我们引入了{\tt 重复策略遗憾(RP-Regret)},这是一种博弈论度量,衡量当所有玩家都能对历史对局做出反应时,实际收益与事后最优的累积收益之间的差异。与现有针对此场景的遗憾定义相比,我们的定义更贴近重复博弈本身,允许更强的比较器和限制更少的对手,同时当所有玩家都最小化此遗憾时,仍有可能找到更优的均衡。我们首先确定了在时间上获得次线性{\tt RP-Regret}的必要条件,这些条件涉及遗憾定义中玩家比较器策略的变化,以及比较器和对手策略的记忆长度。随后,我们研究了额外的条件以及可证明的算法来最小化{\tt RP-Regret},该度量在策略空间上本质上是非凸的。为应对这一挑战,我们提出了三种算法:(i)基于优化预言机的算法,类似于先前一些在线非凸学习工作中的假设;(ii)每次迭代最小化{\tt RP-Regret}的一个凸且线性化的替代指标的算法;(iii)当对手策略缓慢变化时直接最小化{\tt RP-Regret}的算法。此外,当所有玩家都能运行算法来最小化{\tt RP-Regret}(或其线性化变体)时,可以学习到重复博弈的某些子博弈完美均衡。我们还通过实验表明,最小化我们的遗憾概念可以在诸如猎鹿博弈等游戏中带来更合作、效用更高的解。
查看原文
查看缓存全文

缓存时间: 2026/06/05 22:10

论文页面 - 重复博弈中自适应对手的遗憾最小化

来源:https://huggingface.co/papers/2606.06486

摘要

重复策略遗憾为分析重复博弈中的自适应对手提供了一个博弈论框架,通过新颖的非凸优化算法,比传统的外部遗憾提供了更强的均衡保证。

本文研究在重复博弈中面对自适应对手(即能根据历史对局做出响应的对手)的遗憾最小化。在线学习中外部遗憾的标准度量已知无法捕获这种自适应性。为了纳入玩家的反事实推理,我们引入了{{\tt Repeated Policy Regret (RP-Regret)}}(重复策略遗憾),这是一种博弈论度量,衡量当所有玩家都能对历史对局做出响应时,实际累积效用与事后最优效用之间的差异。与现有该设定下的遗憾概念相比,我们的概念更贴合重复博弈的本质,允许更强的比较器和更少约束的对手,同时保持所有玩家最小化该遗憾时找到更优均衡的可能性。我们首先确定了获得时间亚线性{{\tt RP-Regret}}的必要条件,涉及玩家在遗憾定义中比较器策略的变动,以及比较器和对手策略的记忆。接着,我们研究了额外条件以及可证明的算法来最小化{{\tt RP-Regret}}(该定义在策略空间上本质是非凸的)。为应对这一挑战,我们提出了三种算法:(i) 基于优化预言机(如一些先前在线非凸学习工作所假设的);(ii) 每次迭代最小化{{\tt RP-Regret}}的凸线性化近似;(iii) 当对手策略缓慢变化时直接最小化{{\tt RP-Regret}}。此外,当所有玩家都能运行最小化{{\tt RP-Regret}}(或其线性化变体)的算法时,可以学习到重复博弈的某些子博弈完美均衡。我们还提供了实验,表明最小化我们的遗憾概念能够在诸如“猎鹿博弈”等游戏中导向更具合作性的解并获得更高效用。

查看 arXiv 页面 (https://arxiv.org/abs/2606.06486)查看 PDF (https://arxiv.org/pdf/2606.06486)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.06486)

在你的 agent 中获取此论文:

hf papers read 2606.06486

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.06486 即可从此页面链接。

引用此论文的数据集0

无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.06486 即可从此页面链接。

引用此论文的 Spaces0

无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.06486 即可从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

基于重试的策略梯度强化学习中探索的涌现

arXiv cs.LG

本文提出ReMax,一种新的强化学习目标函数,通过基于多个样本的期望最大回报来评估策略,从而将探索作为涌现属性引入,无需显式的探索奖励。作者推导了策略梯度公式,并提出了RePPO,一种PPO变体,在MinAtar和Craftax基准测试上实现了高效探索。

策略感知模拟器学习的理论基础与高效算法

arXiv cs.LG

本文提出了一种用于基于模型的强化学习中模拟器学习的策略鲁棒性目标,将其建模为模型玩家与对抗性策略玩家之间的极小极大博弈。提供了理论保证和可证明收敛的算法,实验表明预测误差在关键区域降低1.5-2.2倍,并提升了策略从模拟到真实世界的迁移效果。

PROWL: 面向世界模型学习的优先遗憾驱动优化

arXiv cs.LG

介绍了一种优先遗憾驱动优化框架PROWL,该框架利用对抗性课程通过聚焦高误差轨迹来提升基于扩散的世界模型的鲁棒性,在MineRL中的分布外场景上取得了更好的性能。