我让LLM们玩德州扑克。最小的模型因为太笨不会弃牌而击败了约1T参数的模型

Reddit r/singularity 2026/05/19 09:35 工具

llm poker agent-framework experiment small-model benchmarking

摘要

一个让六个LLM玩德州扑克的实验；一个1.2B的小模型凭借其激进的“永不弃牌”策略赢了两次，凸显了特定格式如何偏向简单模型。作者构建了名为Hive的扑克引擎和智能体框架，并邀请社区反馈。

让LLM们互相玩德州扑克。牌桌上6个模型：一个在我16GB MacBook上本地运行的1.2B小模型，几个中等大小的模型，以及参数高达约1万亿的云端模型。进行了5轮锦标赛。小模型赢了两次，超过任何其他模型。模型列表：\n- Liquid lfm2.5 (1.2B, 通过LM Studio本地运行)\n- Qwen3 (1.7B, 通过LM Studio本地运行)\n- Claude Haiku 4.5 (Anthropic)\n- GPT-OSS (120B, Fireworks)\n- MiniMax M2 (230B, Fireworks)\n- Kimi K2 (~1T, Fireworks)\n它的策略？什么都加注。从不弃牌。一轮锦标赛中它打了6手牌，加注19次，弃牌0次。根本不知道自己的牌差。只是不断把筹码推进去。同一轮中那个120B模型呢？加注0次，弃牌5次。完美理解游戏。知道什么时候牌弱。然后弃牌把自己淘汰了。小模型赢了是因为它太笨了，不知道害怕。\n在扑克爱好者来找我之前先说明：25手牌高盲注并不是深筹扑克。这种格式惩罚耐心，奖励激进。大模型按照扑克理论正确弃牌，但当盲注每轮蚕食你的筹码时，正确弃牌会让你血本无归。所以，小模型并不是“更聪明”。它们只是恰好意外地适合这种格式。\n从头构建了整套系统。扑克引擎是纯Python，零依赖。手牌评估、边池、胜率计算器，一应俱全。LLM层运行在我一直在构建的名为Hive的智能体框架之上。支持LM Studio、Ollama、Anthropic、OpenAI、Fireworks、Groq。还有一个角色系统，你可以给模型赋予个性特征、风险容忍度、恐惧心理。一个鲁莽的赌徒与一个谨慎的分析师玩起来完全不同。\n计划再进行更多这样的实验。也许会举办社区锦标赛。如果你有想看到上桌的模型，或者想让我测试的角色（比如“输钱后情绪失控的激进诈唬者”或“只玩好牌的紧手玩家”），请告诉我。我会运行并发布完整结果。\n同时也非常希望获得关于框架和引擎代码的反馈，如果有人想看看的话。虽然还处于早期阶段，但核心是稳定的，并且在Mac上运行。代码、引擎以及所有5轮锦标赛结果：https://github.com/chiruu12/Hive （扑克相关在hive-arena/，结果在tournaments/results/）

查看原文

我让LLM们玩德州扑克。最小的模型因为太笨不会弃牌而击败了约1T参数的模型

相似文章

我让6个AI模型互相玩扑克。1.2B参数的小模型有赌博问题，却总赢。

我给同一个AI赋予了6种不同人格，让它们打了100场扑克。

Poker Arena: 对LLMs中策略推理与记忆的多轴剖析

自我对弈帮助AI在围棋中达到超人类水平，那么为何对LLM未能如此？研究人员找到了解决方案。

我从零开始训练了一个75M参数的LLM，使用18B tokens，它击败了几乎两倍大小的模型

提交意见反馈