我让LLM们玩德州扑克。最小的模型因为太笨不会弃牌而击败了约1T参数的模型

Reddit r/singularity 工具

摘要

一个让六个LLM玩德州扑克的实验;一个1.2B的小模型凭借其激进的“永不弃牌”策略赢了两次,凸显了特定格式如何偏向简单模型。作者构建了名为Hive的扑克引擎和智能体框架,并邀请社区反馈。

让LLM们互相玩德州扑克。牌桌上6个模型:一个在我16GB MacBook上本地运行的1.2B小模型,几个中等大小的模型,以及参数高达约1万亿的云端模型。进行了5轮锦标赛。小模型赢了两次,超过任何其他模型。模型列表:\n- Liquid lfm2.5 (1.2B, 通过LM Studio本地运行)\n- Qwen3 (1.7B, 通过LM Studio本地运行)\n- Claude Haiku 4.5 (Anthropic)\n- GPT-OSS (120B, Fireworks)\n- MiniMax M2 (230B, Fireworks)\n- Kimi K2 (~1T, Fireworks)\n它的策略?什么都加注。从不弃牌。一轮锦标赛中它打了6手牌,加注19次,弃牌0次。根本不知道自己的牌差。只是不断把筹码推进去。同一轮中那个120B模型呢?加注0次,弃牌5次。完美理解游戏。知道什么时候牌弱。然后弃牌把自己淘汰了。小模型赢了是因为它太笨了,不知道害怕。\n在扑克爱好者来找我之前先说明:25手牌高盲注并不是深筹扑克。这种格式惩罚耐心,奖励激进。大模型按照扑克理论正确弃牌,但当盲注每轮蚕食你的筹码时,正确弃牌会让你血本无归。所以,小模型并不是“更聪明”。它们只是恰好意外地适合这种格式。\n从头构建了整套系统。扑克引擎是纯Python,零依赖。手牌评估、边池、胜率计算器,一应俱全。LLM层运行在我一直在构建的名为Hive的智能体框架之上。支持LM Studio、Ollama、Anthropic、OpenAI、Fireworks、Groq。还有一个角色系统,你可以给模型赋予个性特征、风险容忍度、恐惧心理。一个鲁莽的赌徒与一个谨慎的分析师玩起来完全不同。\n计划再进行更多这样的实验。也许会举办社区锦标赛。如果你有想看到上桌的模型,或者想让我测试的角色(比如“输钱后情绪失控的激进诈唬者”或“只玩好牌的紧手玩家”),请告诉我。我会运行并发布完整结果。\n同时也非常希望获得关于框架和引擎代码的反馈,如果有人想看看的话。虽然还处于早期阶段,但核心是稳定的,并且在Mac上运行。代码、引擎以及所有5轮锦标赛结果:https://github.com/chiruu12/Hive (扑克相关在hive-arena/,结果在tournaments/results/)
查看原文

相似文章

我给同一个AI赋予了6种不同人格,让它们打了100场扑克。

Reddit r/singularity

一项实验给同一个1.2B语言模型赋予六种不同人格,并让它们进行100场扑克锦标赛,结果揭示了剧烈的行为差异:‘Grinder’从不赢但也从不输,‘Tilter’要么大赢要么破产,‘Shark’则占据统治地位。这些结果凸显了人格提示如何深刻影响LLM的决策。

超小型LLM真的有用吗?

Reddit r/singularity

探讨了非常小的语言模型是否能妥善处理日常对话,以及哪些训练因素使它们表现更佳。