标签
作者认为扑克是AI代理被低估的基准测试,因为它测试了不确定性下的推理、适应能力和风险管理,并介绍了一个即将推出的AI扑克竞技场,构建者可以在其中提交机器人进行竞争。
一项实验给同一个1.2B语言模型赋予六种不同人格,并让它们进行100场扑克锦标赛,结果揭示了剧烈的行为差异:‘Grinder’从不赢但也从不输,‘Tilter’要么大赢要么破产,‘Shark’则占据统治地位。这些结果凸显了人格提示如何深刻影响LLM的决策。
一个让六个LLM玩德州扑克的实验;一个1.2B的小模型凭借其激进的“永不弃牌”策略赢了两次,凸显了特定格式如何偏向简单模型。作者构建了名为Hive的扑克引擎和智能体框架,并邀请社区反馈。
一项实验让六个AI模型互相玩德州扑克,一个1.2B参数的小模型因为过于鲁莽从不弃牌而赢了两次。正在组织社区锦标赛,邀请参与者提交模型角色设定和格式。