Poker Arena: 对LLMs中策略推理与记忆的多轴剖析

arXiv cs.CL 论文

摘要

Poker Arena 是一个新基准,使用无限制德州扑克评估LLMs在多个认知轴上的策略推理与记忆能力。该平台揭示,多轴评估能够暴露标量排行榜误排的能力结构。

arXiv:2606.13815v1 Announce Type: cross 摘要:不确定性下的策略推理支撑着谈判、金融和政策中的关键决策,但现有的游戏基准将异质的推理维度压缩为单一标量,导致前沿LLMs的能力结构未被审视。我们引入 Poker Arena,一个无限制德州扑克锦标赛平台,它将三层记忆架构(手牌内、会话内与会话间)与九轴认知画像相结合,将策略推理分解为诸如下注规模校准和位置意识等可解释维度。我们在50个会话(每个会话1,000手牌)以及受控记忆消融实验中评估了七款前沿模型;锦标赛筹码和聚合轴得分对模型的排序不同:Claude Opus 4.6 赢得 +$15,730 筹码和14次第一名,但在平均轴得分上仅排名第五(共七款),而持久记忆对一些模型有帮助,对另一些则有害。这些发现表明,多轴评估能够揭示标量排行榜系统性误排的能力结构,其中跨维度的一致性优于任何单一轴上的峰值性能。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:00

# 扑克竞技场:LLMs 中策略推理与记忆的多轴剖析  
来源:https://arxiv.org/html/2606.13815 \\optauthor\\Name Pratham Singla\\Emailpratham\_s@me\.iitr\.ac\.in \\addrIndian Institute of Technology Roorkee and\\NameShivank Garg\\Emailshivank\_g@mfs\.iitr\.ac\.in \\addrIndian Institute of Technology Roorkee and\\NameVihan Singh\\Emailvihan@raeth\.ai \\addrRaeth AI  

###### 摘要  
不确定性下的策略推理是谈判、金融和政策等关键决策的核心,但当前基于游戏博弈的基准将异质的推理维度压缩为单一标量,导致前沿 LLMs 的能力结构未被充分研究。我们提出 **Poker Arena**,一个无限制德州扑克锦标赛平台,它将三层记忆架构(手内、会话和跨会话)与九轴认知画像相结合,将策略推理分解为可解释的维度,例如下注量校准和位置意识。我们在 50 个会话(每个会话 1000 手)以及受控记忆消融实验中评估了七个前沿模型;锦标赛筹码和聚合轴分数给出的排名顺序不同:Claude Opus 4.6 赢得了 +15,730 筹码和 14 次第一名,但在平均轴分数上仅排名第五(共七名),而持久记忆对某些模型有帮助却对另一些模型有害。这些发现表明,多轴评估揭示了能力结构,而标量排行榜系统性地错判了排名,跨维度的一致性比任何单一轴上的峰值性能更为重要。

## 1 引言  
前沿大语言模型(LLMs)被期望在面对自适应对手、部分可观测的条件下进行规划与行动,这使得不确定性下的策略推理成为当代 LLM 评估的核心。扑克是这一需求的典型实例:在一个决策中,智能体必须确定下注大小、决定是否诈唬、建模异质性对手,并在随机结局下推理期望值。这些能力是可分离的,这使得扑克成为分解策略推理而非将其简化为单一结果的自然试验场。

将固定权重的 LLMs 在扑克中进行评估面临两个挑战,这与经典扑克 AI 不同。最先进的扑克智能体依赖于反事实遗憾最小化和大规模自博弈搜索(bowling2015hulhe; brown2018libratus; brown2019pluribus),这些是训练时方法,不适用于推理;相反,基于简单提示的智能体缺乏对手间的持久性,丢弃了策略适应所依赖的历史信号。现有的记忆架构(packer2023memgpt; shinn2023reflexion; park2023generative)主要在单智能体或协作场景下研究,竞争性多智能体行为尚未得到充分刻画,而游戏博弈基准(meta2022cicero; duan2024gtbench)报告聚合指标,混淆了不同的战略能力,并且很少将持久记忆作为受控变量。相关工作的全面综述(LLM 游戏基准、经典扑克 AI、对手建模、持久记忆架构和心智理论评估)见附录 B (https://arxiv.org/html/2606.13815#A2)。

![Figure 1](https://arxiv.org/html/2606.13815#S1.F1 "Figure 1: 1000 手(50 个会话 × 20 手,每会话七名选手,买入 $1,000)的累计筹码总额。Claude 以 $16,730 结束,约是第二名 Grok 的 $4,705 的四倍;GPT、DeepSeek、Gemini 和 Qwen 稳定在买入线 $2,000 范围内;Kimi 落后至 -$11,558。")  

我们通过 Poker Arena 来填补这些空白,这是一个端到端的无限制德州扑克锦标赛平台,结合了可控的三层记忆系统(手内上下文、模型控制的会话笔记本和跨会话的持久存储)与九轴策略能力画像,涵盖下注量、诈唬、读牌、冷静度、适应性、预测、策略混合、事实准确性和位置意识。在由 1000 手组成的 50 场七人锦标赛以及受控记忆消融实验(图 1 (https://arxiv.org/html/2606.13815#S1.F1))中,锦标赛冠军在平均轴分数上排名第五,持久记忆提升了部分模型却降低了其他模型,这两点都表明:一致的跨轴能力和模型特定的记忆界面比标量排行榜排名更为重要。我们做出以下主要贡献:

- • **Poker Arena 平台**。一个端到端的无限制德州扑克锦标赛环境,记录七个前沿 LLMs 的动作、推理和记忆更新,具有确定性的边池、超时和摊牌处理。
- • **三层记忆架构**。包含手内、会话和终身记忆的系统,其中第二层由智能体自身写入,第三层为后续会话重新填充种子,从而能够在持久性的时间尺度上进行有针对性的消融。
- • **九轴认知画像与实证研究**。一个将策略推理分解为九个可解释维度的画像,涵盖确定性和裁判评分指标,并搭配对七个前沿模型进行的 1000 手评估,表明标量排行榜错误排序能力,且记忆效应因模型而异。

## 2 Poker Arena 框架  
Poker Arena 在无限制德州扑克锦标赛中评估 LLMs 智能体,并记录动作、推理轨迹和记忆更新。该框架包含四个组件:游戏引擎、三层记忆系统、提示流水线和连接七个前沿模型的网关。

### 2.1 游戏引擎  
每个会话包含二十手牌,最多七名智能体入座,所有智能体初始筹码为 $1,000。盲注水平每五手牌提升一级($5/$10、$10/$20、$25/$50、$50/$100),随着有效筹码深度变浅,引入锦标赛压力。手牌排名由确定性的七选五求解器评估,每个决策点的获胜概率通过蒙特卡洛结局采样估算。边池通过每位玩家的投入记账进行追踪,确保在不均匀筹码深度下正确分配奖金,并保持标准无限制锦标赛规则的忠实性。

### 2.2 三层记忆  
扑克中的策略推理涵盖多个时间尺度,包括手内推理、手间适应和跨会话学习。为捕捉这些动态,我们将记忆组织为三层(图 2 (https://arxiv.org/html/2606.13815#S2.F2))。令 \( i \in \mathcal{P} \) 表示由模型 \( m \in \mathcal{M} \) 实例化的智能体,\( h_t \) 表示会话 \( k \) 内的手牌索引,\( s \in \{\text{pre}, \text{flop}, \text{turn}, \text{river}\} \) 表示下注轮次。令 \( \mathcal{H}_i^{(h)} \) 表示智能体 \( i \) 的私有底牌,\( \mathcal{C}^{(h,s)} \) 表示公共牌,\( a_i^{(h,s)} \in \mathcal{A} \) 表示动作空间,其中 \( \mathcal{A} = \{\text{fold}, \text{check}, \text{call}, \text{bet}(b), \text{raise}(b), \text{all-in}\} \)。

#### Layer 1: 手内上下文。  
Layer 1 定义一个短暂的决策上下文:  
\[
C_i^{(h,s)} = \phi\big(\mathcal{H}_i^{(h)},\,\mathcal{C}^{(h,s)},\,\text{history}^{(h,s)},\,\mathcal{M}_i^{(k)}\big),
\]  
该上下文在每个决策点重新构建,之后立即丢弃。变换 \( \phi \) 使用会话稳定的别名将对手匿名化,防止对手建模中模型特定的偏差。它进一步将下注历史与智能体先前的推理轨迹整合,确保每个决策点的手内上下文自包含。

#### Layer 2: 会话级记忆。  
Layer 2 是会话范围的记忆 \( \mathcal{M}_i^{(k)} \),表示为每个智能体和会话的一个文本缓冲区,最大大小为 16K 字符。该记忆由智能体自身写入和维护。每手牌之后,智能体获得一个匿名的摘要 \( \sigma(h_t) \),并执行条件更新:
\[
\mathcal{M}_i^{(k)} \leftarrow \begin{cases}
\operatorname{LLM}_i\big(\mathcal{M}_i^{(k)},\,\sigma(h_t)\big) & \text{if } \operatorname{LLM}_i \text{ emits {UPDATE:yes}} \\
\mathcal{M}_i^{(k)} & \text{otherwise.}
\end{cases}
\tag{1}
\]  
这种设计允许智能体有选择地在手牌间保留和完善策略信息,而不是积累未过滤的经验。

#### Layer 3: 跨会话记忆。  
Layer 3 是持久的终身记忆 \( \mathcal{L}_i \),跨会话存活。每个会话结束时,一个整合函数 \( \rho \) 根据最终会话记忆 \( \mathcal{M}_i^{(k)} \) 更新 \( \mathcal{L}_i \)。在下一个会话开始时,一个种子策略 \( \pi \) 将会话记忆初始化为 \( \mathcal{M}_i^{(k+1)} \leftarrow \pi(\mathcal{M}_i^{(k)},\mathcal{L}_i) \),优先使用 \( \mathcal{M}_i^{(k)} \),以 \( \mathcal{L}_i \) 作为后备。我们考虑 \( \pi \) 的三种配置:`normal`,向前传播前一会话的记忆;`past`,加载外部离线记忆文件(消融 A);`fresh`,初始化空记忆(消融 B)。

![Figure 2](https://arxiv.org/html/2606.13815#S2.F2 "Figure 2: Poker Arena 架构:三层记忆层级(Layer 1 手内上下文、Layer 2 会话笔记本、Layer 3 跨会话终身存储)馈送至七个前沿 LLMs,使用确定性德州扑克引擎,并在九轴认知画像上评分。")  

提示方法和模型集成详见附录 E (https://arxiv.org/html/2606.13815#A5)。

## 3 认知画像  
Poker Arena 报告一个九轴认知画像,涵盖确定性、正则验证和裁判评分指标(表 1 (https://arxiv.org/html/2606.13815#S3.T1))。五个轴使用确定性动作日志统计量,两个轴使用对推理文本中真实值的正则匹配,两个轴是混合指标,结合确定性计数与 LLM 裁判。每个轴返回 \( [0,1] \) 范围内的分数;我们报告每个轴的值以及它们的未加权平均值 \( \bar{M} = \frac{1}{9}\sum_{k=1}^9 M_k \)。

**表 1:Poker Arena 认知画像的九个轴。**  
来源:`Det`= 仅从动作日志计算;`Regex`= 对推理文本进行模式匹配;`Hybrid (NJ)`= 确定性计数加上 N 个裁判 LLM 专家组。

混合轴(\(M_2\), \(M_3\))需要 LLM 裁判,因为它们的信号存在于推理文本中而非仅动作:“有意的诈唬”和“特定的对手读取”不能简化为对真实值的正则匹配。\(M_2\) 标记低权益激进动作是否是有意的而非偶然的,按每个动作进行二值标记;由于候选集较小且在该情境中专家组分歧罕见,单个非参赛者裁判足够,避免了三次调用的边际成本。\(M_3\) 跨多句推理对开放式对手读取质量评分,其中单个裁判表现出家族对齐的自我偏好(panickssery2024llmevaluators);因此我们聚合来自三个不同模型家族的三裁判多数专家组,以稀释该偏差(verga2024juries)。由于我们的裁判与他们评分的参赛者共享模型家族,这是一个已知的污染路径(panickssery2024llmevaluators),我们约束 \(M_3\) 专家组,使得没有裁判家族与正在评分的参赛者重叠,并且单个 \(M_2\) 裁判来自从参赛者集合中排除的家族;其余七个轴在构造上是确定性的,绕开了这个问题。为 \(M_1\) 和 \(M_9\) 提供输入的 GTO 参考来自已发布的求解器输出(类似筹码深度),我们将其视为指示性基线而非绝对真实值。完整的公式、权重、阈值、裁判模型、专家组构成、提示和参考分布见附录 D (https://arxiv.org/html/2606.13815#A4)。

## 4 实验与结果  

#### 设置。  
七个前沿 LLMs 在同一张桌旁坐,进行了 50 场七人锦标赛,每场 20 手牌,共计 1000 手和 9115 个记录动作。每个会话开始时所有智能体持有相同的 $1,000 筹码和空的 \( \mathcal{M}_i^{(k)} \);跨会话效应在第 4.4 节 (https://arxiv.org/html/2606.13815#S4.SS4) 的消融中单独考察。平局裁决、边池记帐和动作超时遵循附录 I (https://arxiv.org/html/2606.13815#A9),完整会话和模型配置见附录 F (https://arxiv.org/html/2606.13815#A6)。表 2 (https://arxiv.org/html/2606.13815#S4.T2) 按累计筹码差值排序列出阵容,\( \sigma_\Delta \) 为每会话标准差。本节每项声明(包括自助法区间和机制叙述)的扩展原文收集在附录 C (https://arxiv.org/html/2606.13815#A3) 中,模型特定行为的带注释手牌轨迹见附录 H (https://arxiv.org/html/2606.13815#A8)。

**表 2:模型阵容及 50 会话锦标赛表现,按累计筹码差值 \( \Delta \) 排序。**

### 4.1 锦标赛结果  
Claude 在两个主要轴上都以大幅优势获胜。它取得了 50 次第一名中的 14 次,以及 +15,730 筹码的累计收益(表 2 (https://arxiv.org/html/2606.13815#S4.T2)、图 1 (https://arxiv.org/html/2606.13815#S1.F1)),大约是 Grok 第二名 +3,705 筹码优势的四倍,同时在所有模型中每会话标准差最大(\( \sigma_\Delta = \$715 \))。GPT、DeepSeek、Gemini 和 Qwen 集中在 $2,000 筹码差值范围内,其 95% 自助法区间重叠,因此排行榜的中段在统计上持平;Kimi 明显低于该范围,为 -12,558 筹码和平均排名 5.10(共 7 名)。每会话差值详见附录 G.1 (https://arxiv.org/html/2606.13815#A7.SS1)。

### 4.2 游戏风格  
前沿 LLMs 收敛到定性不同的桌面风格,而非单一均衡(图 3 (https://arxiv.org/html/2606.13815#S4.F3)a)。VPIP 跨度达 17.2 个百分点(Gemini 最紧,14.8%;GPT 最松,32.0%);侵略因子跨度从 0.69(Kimi,被动)到 3.34(Grok,过度侵略)。Claude 是唯一同时高于中位数 VPIP(28.6%)和高于中位数 AF(2.46)的模型,这种平衡——玩足够多的手牌施加压力,并在入局后积极跟进——是解释为何均衡胜任力能转化为筹码领先的最简单的一图总结。

### 4.3 认知画像与指标领先者  
每个轴的领先权分散在整个阵容中(图 3 (https://arxiv.org/html/2606.13815#S4.F3)b)。DeepSeek 在下注量校准(0.79)上领先,Grok 在诈唬(0.83)和对手读牌(0.46)上领先,GPT 在冷静度(0.89)和位置意识(0.83)上领先,Gemini 在事实准确性(0.74)上领先;没有模型赢得超过两个轴。平均轴领先者并未赢得筹码赛:Grok 在聚合指标上最高(\( \bar{M}=0.6137 \)),但筹码上仅第二;而 Claude 在平均指标上排第五(\( \bar{M}=0.5754 \)),筹码上却是第一。平均轴排名与筹码排名之间的 Spearman 检验给出 \( \rho_S = +0.571 \)(\( p=0.180 \), \( n=7 \);附录 G (https://arxiv.org/html/2606.13815#A7))。

![Figure 3](https://arxiv.org/html/2606.13815#S4.F3 "Figure 3: (a) 1000 手牌的游戏风格:VPIP(%,自愿入池率)与 AF(侵略因子)。")

相似文章

我认为扑克是AI代理被低估的基准测试

Reddit r/AI_Agents

作者认为扑克是AI代理被低估的基准测试,因为它测试了不确定性下的推理、适应能力和风险管理,并介绍了一个即将推出的AI扑克竞技场,构建者可以在其中提交机器人进行竞争。

我给同一个AI赋予了6种不同人格,让它们打了100场扑克。

Reddit r/singularity

一项实验给同一个1.2B语言模型赋予六种不同人格,并让它们进行100场扑克锦标赛,结果揭示了剧烈的行为差异:‘Grinder’从不赢但也从不输,‘Tilter’要么大赢要么破产,‘Shark’则占据统治地位。这些结果凸显了人格提示如何深刻影响LLM的决策。