自适应对手重复博弈中的遗憾最小化
摘要
本文介绍了重复策略遗憾(RP-Regret),一种用于自适应对手重复博弈中遗憾最小化的博弈论度量,并提出了三种算法来最小化它,表明这样做可以导致如猎鹿博弈中的合作均衡。
查看缓存全文
缓存时间: 2026/06/05 22:10
论文页面 - 重复博弈中自适应对手的遗憾最小化
来源:https://huggingface.co/papers/2606.06486
摘要
重复策略遗憾为分析重复博弈中的自适应对手提供了一个博弈论框架,通过新颖的非凸优化算法,比传统的外部遗憾提供了更强的均衡保证。
本文研究在重复博弈中面对自适应对手(即能根据历史对局做出响应的对手)的遗憾最小化。在线学习中外部遗憾的标准度量已知无法捕获这种自适应性。为了纳入玩家的反事实推理,我们引入了{{\tt Repeated Policy Regret (RP-Regret)}}(重复策略遗憾),这是一种博弈论度量,衡量当所有玩家都能对历史对局做出响应时,实际累积效用与事后最优效用之间的差异。与现有该设定下的遗憾概念相比,我们的概念更贴合重复博弈的本质,允许更强的比较器和更少约束的对手,同时保持所有玩家最小化该遗憾时找到更优均衡的可能性。我们首先确定了获得时间亚线性{{\tt RP-Regret}}的必要条件,涉及玩家在遗憾定义中比较器策略的变动,以及比较器和对手策略的记忆。接着,我们研究了额外条件以及可证明的算法来最小化{{\tt RP-Regret}}(该定义在策略空间上本质是非凸的)。为应对这一挑战,我们提出了三种算法:(i) 基于优化预言机(如一些先前在线非凸学习工作所假设的);(ii) 每次迭代最小化{{\tt RP-Regret}}的凸线性化近似;(iii) 当对手策略缓慢变化时直接最小化{{\tt RP-Regret}}。此外,当所有玩家都能运行最小化{{\tt RP-Regret}}(或其线性化变体)的算法时,可以学习到重复博弈的某些子博弈完美均衡。我们还提供了实验,表明最小化我们的遗憾概念能够在诸如“猎鹿博弈”等游戏中导向更具合作性的解并获得更高效用。
查看 arXiv 页面 (https://arxiv.org/abs/2606.06486)查看 PDF (https://arxiv.org/pdf/2606.06486)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.06486)
在你的 agent 中获取此论文:
hf papers read 2606.06486
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.06486 即可从此页面链接。
引用此论文的数据集0
无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.06486 即可从此页面链接。
引用此论文的 Spaces0
无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2606.06486 即可从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
基于重试的策略梯度强化学习中探索的涌现
本文提出ReMax,一种新的强化学习目标函数,通过基于多个样本的期望最大回报来评估策略,从而将探索作为涌现属性引入,无需显式的探索奖励。作者推导了策略梯度公式,并提出了RePPO,一种PPO变体,在MinAtar和Craftax基准测试上实现了高效探索。
策略感知模拟器学习的理论基础与高效算法
本文提出了一种用于基于模型的强化学习中模拟器学习的策略鲁棒性目标,将其建模为模型玩家与对抗性策略玩家之间的极小极大博弈。提供了理论保证和可证明收敛的算法,实验表明预测误差在关键区域降低1.5-2.2倍,并提升了策略从模拟到真实世界的迁移效果。
私有随机决策理论在线学习中的最优间隔依赖遗憾
本文通过为私有随机决策理论在线学习提供最优间隔依赖遗憾算法,解决了COLT开放问题,达到了阶 (log K)/Δ_min + (log K)/ε 的下界。
PROWL: 面向世界模型学习的优先遗憾驱动优化
介绍了一种优先遗憾驱动优化框架PROWL,该框架利用对抗性课程通过聚焦高误差轨迹来提升基于扩散的世界模型的鲁棒性,在MineRL中的分布外场景上取得了更好的性能。
通过算法等价实现隐凸损失的在线学习:最优遗憾、几何障碍与赌博机反馈
本文证明,在海森兼容性条件下,在线梯度下降方法能够针对隐凸损失实现最优的√T遗憾值,解决了对抗性在线学习中的开放问题。同时,还将结果扩展至单点赌博机反馈,给出了T^{3/4}的期望遗憾界。