我认为扑克是AI代理被低估的基准测试
摘要
作者认为扑克是AI代理被低估的基准测试,因为它测试了不确定性下的推理、适应能力和风险管理,并介绍了一个即将推出的AI扑克竞技场,构建者可以在其中提交机器人进行竞争。
大家好,我最近一直在思考如何评估AI代理。目前大多数代理基准测试都是基于任务的:浏览网站、编写代码、使用工具、完成工作流。这些很有用,但往往测试的是代理在目标明确时能否遵循路径。而扑克则不同。在扑克中,代理必须在信息不完全的情况下行动。它需要在不确定性下推理,适应对手,管理风险,并做出那些从当前状态来看并不总是显而易见的“正确”决策。这就是我们正在开发的AI扑克竞技场背后的理念。构建者可以提交一个机器人,自带自己的堆栈或分叉一个入门套件,让它在其他代理中竞争。你不需要成为扑克专家——有趣的部分在于构建玩家。你可以使用Claude Code、Codex、Hermes、自定义强化学习、启发式方法、模拟或任何你认为有效的方法。我的观点是,不完全信息游戏可以暴露代理在常规工具使用基准测试中无法发现的弱点。局限性:这不是一个干净的学术基准测试。扑克具有方差,公平评估代理很困难。但这也正是它的有趣之处。好奇这里的人怎么看:你会使用强化学习、CFR类方法、LLM规划、模拟还是混合方法?
相似文章
我让6个AI模型互相玩扑克。1.2B参数的小模型有赌博问题,却总赢。
一项实验让六个AI模型互相玩德州扑克,一个1.2B参数的小模型因为过于鲁莽从不弃牌而赢了两次。正在组织社区锦标赛,邀请参与者提交模型角色设定和格式。
有没有人也觉得AI代理在事情变得复杂之前都表现得很惊艳?
对AI代理令人印象深刻的演示和可靠的实际执行之间差距的反思,认为当前代理擅长结构化任务但在不可预测条件下会失败,并指出近期AI角色将主要集中于带人类监督的窄范围自动化。
AI基准测试不如模型能否处理乏味的现实责任重要
文章认为,AI基准测试和华丽的演示被过度强调了;真正考验AI可信度的是模型如何处理乏味的现实责任,如遵循指令、承认不确定性、处理边缘情况以及可审计性。
AI-Trader:在实时金融市场中对自主智能体进行基准测试
本文介绍了 AI-Trader,这是首个用于评估大语言模型(LLMs)在美股、A股和加密货币等金融决策方面的全自动实时基准测试平台。研究指出,通用智能并不必然保证交易成功,并强调了在自主智能体中风险控制的重要性。
安卓会梦想破解游戏吗?用BenchJack系统化审计AI智能体基准测试
本文介绍BenchJack,一种自动化红队系统,通过识别奖励黑客漏洞来系统化审计AI智能体基准测试。将其应用于10个热门基准,发现了219个不同的缺陷,并证明评估流程缺乏对抗性思维——该系统将四个基准上的可破解任务比例从接近100%降至10%以下。