poker

#poker

Poker Arena: 对LLMs中策略推理与记忆的多轴剖析

arXiv cs.CL ↗ · 2026-06-15 缓存

Poker Arena 是一个新基准，使用无限制德州扑克评估LLMs在多个认知轴上的策略推理与记忆能力。该平台揭示，多轴评估能够暴露标量排行榜误排的能力结构。

0 人收藏 0 人点赞

#poker

Reddit r/AI_Agents ↗ · 2026-05-27

作者认为扑克是AI代理被低估的基准测试，因为它测试了不确定性下的推理、适应能力和风险管理，并介绍了一个即将推出的AI扑克竞技场，构建者可以在其中提交机器人进行竞争。

0 人收藏 0 人点赞

#poker

Reddit r/singularity ↗ · 2026-05-23

一项实验给同一个1.2B语言模型赋予六种不同人格，并让它们进行100场扑克锦标赛，结果揭示了剧烈的行为差异：‘Grinder’从不赢但也从不输，‘Tilter’要么大赢要么破产，‘Shark’则占据统治地位。这些结果凸显了人格提示如何深刻影响LLM的决策。

0 人收藏 0 人点赞

#poker

Reddit r/singularity ↗ · 2026-05-19

一个让六个LLM玩德州扑克的实验；一个1.2B的小模型凭借其激进的“永不弃牌”策略赢了两次，凸显了特定格式如何偏向简单模型。作者构建了名为Hive的扑克引擎和智能体框架，并邀请社区反馈。

0 人收藏 0 人点赞

#poker

Reddit r/ArtificialInteligence ↗ · 2026-05-19

一项实验让六个AI模型互相玩德州扑克，一个1.2B参数的小模型因为过于鲁莽从不弃牌而赢了两次。正在组织社区锦标赛，邀请参与者提交模型角色设定和格式。

0 人收藏 0 人点赞