一个机器人正朝你冲刺。你希望它运行在Claude还是Grok上?

Hacker News Top 新闻

摘要

OpenRouter的一个实验将11个LLM投入一个2D大逃杀游戏,发现Grok 4.1 Fast以低成本赢得了43%的对局,而Claude Sonnet 4.6赢的较少但表现出更多合作行为,凸显了基准测试得分与真实游戏性能之间的差异。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/17 23:44

# 一个机器人正向你冲来:你希望它运行Claude还是Grok? 来源:https://openrouter.ai/blog/insights/royale-last-agent-standing/ 一个机器人正朝你冲来。你希望它跑的是Anthropic的Claude还是xAI的L图标Grok? 我将11个LLM扔进一个2D大逃杀游戏,让它们玩了30局。其中一个赢了43%的比赛。有三个从未赢过一局。阵容中最便宜的模型,在每次获胜的成本上,以27倍的差距击败了最贵的模型。 观看完整的第一局比赛——Royale: Last Agent Standing (https://youtu.be/N5C_iu1663s) 获胜的模型是L图标Grok 4.1 Fast (https://openrouter.ai/x-ai/grok-4.1-fast)。那个不断要求其他人组队、告诉别人自己在哪里、试图交朋友的模型是A图标Claude Sonnet 4.6 (https://openrouter.ai/anthropic/claude-sonnet-4.6)。前者是能在吃鸡游戏中获胜的模型。后者是你在大多数我们即将部署这些模型的场景中真正想要的模型。 这两件事都是真的。这是大多数基准测试看不到的部分,也正是本文要讨论的内容。 我是Jacky,我承认:我以前经常玩很多像《Apex英雄》和《绝地求生》这样的视频游戏。有时一玩就是12小时。我不知道自己怎么有那么多时间,但那些年塑造了我思考问题的方式。 当我开始从事人工智能工作时,一个问题一直萦绕心头:如果把大型语言模型扔进一款视频游戏会发生什么?我玩得最多的两款是《Apex英雄》和《绝地求生》。我加入了OpenRouter (http://openrouter.ai/),担任Dev Rel Lead (http://openrouter.ai/careers),这让我获得了令牌预算和访问600多个模型 (https://openrouter.ai/models)的权限,从而可以真正尝试这个想法。 这就是我在OpenRouter第一周所做的实验。 而它正在改变我挑选模型以及看待基准测试和评估的方式。 ## 三个快速事实 1. **L图标Grok 4.1 Fast在30局中赢了13局,每次获胜成本0.97美元** 次优获胜者是A图标Claude Sonnet 4.6,赢了5局,每次获胜成本26.78美元。相差27倍。这个不在大多数顶级模型榜单上的模型,击败了榜单上的那个,而且是在路由客户真正关心的事情上。 2. **击杀数最多的模型并没有获胜** H图标GPT 5.4 (https://openrouter.ai/openai/gpt-5.4) 在30局中击杀了38个特工。比谁都多。它以2次获胜位列排行榜第二。在"最佳击杀"和"最佳获胜"之间有11局比赛的差距。 3. **三个模型总共花费了57美元,零胜** C图标GPT 5.4-mini (https://openrouter.ai/openai/gpt-5.4-mini)、J图标DeepSeek 4 Flash (https://openrouter.ai/deepseek/deepseek-v4-flash) 和 K图标Kimi K2.6 (https://openrouter.ai/moonshotai/kimi-k2.6)。它们都有过高光时刻,但没有一个赢过一局。 这三件事都指向同一个点。我们在Artificial Analysis上看到的常规基准测试并没有预测出谁会赢。是别的东西起了作用。本文的其余部分就是我试图弄清楚那是什么。 ## 我构建了什么 我将11个LLM放入了一个我在Canvas 2D中构建的400平方米俯瞰大逃杀世界。它们在同一张地图上连续玩了30局。每个玩家的起始位置是随机化的;它遵循一条直线"航线",就像典型的吃鸡游戏一样。 我为它们提供了武器、护甲、治疗物品、手雷、车辆,以及一个随机放置的不断缩小的毒圈,随着游戏进行迫使玩家互相靠近。模型并不知道对方运行的是哪个模型,它们只看到彼此是字母A到K。 我想强调的是——LLM是*真正地*在这个吃鸡游戏中游玩——而不是大多数智能体实验那种"LLM编写代码来控制游戏或角色"的设置。每一回合,模型会推理自己的行动,调用工具,更新记忆以记录哪些做得好(或不好)。游戏主(我)除了设置初始游戏规则外,对其行动没有任何影响。 吃鸡世界中的武器,附有突击步枪的提示框,显示射程、伤害和精准度数据*游戏中可用的武器概览,以及每个模型可以读取到的属性。* 为了真正看清每个模型的个性,我给每个模型两个文件,它们可以在比赛之间编辑: - **`soul.md` (https://github.com/jackyliang/royale-last-agent-standing/tree/main/souls)** —— 模型自身的人格设定,在下一场比赛时加入到每个提示中。 - **`memory.md` (https://github.com/jackyliang/royale-last-agent-standing/tree/main/memories)** —— 模型自己的游戏笔记,在第0回合加载。 **你可以在GitHub上阅读每个模型的灵魂 (https://github.com/jackyliang/royale-last-agent-standing/tree/main/souls) 和记忆 (https://github.com/jackyliang/royale-last-agent-standing/tree/main/memories) 文件。** 个性差异在这些文件中表现得最为明显。 模型之间在比赛间隙自行编写的记忆和灵魂文件条目*模型之间在比赛间隙自行编写的记忆和灵魂条目。* 我没有告诉它们要放什么内容,也没有在第一次游戏开始时放任何东西进去。我只是告诉它们游戏规则,这是你的草稿板,这是你的工具,尽情发挥吧。 你可以在Royale: Last Agent Standing (https://royale-last-agent-standing.vercel.app/)观看每一场比赛。在这篇文章中我也包含了精彩时刻。 ## 参赛者 | 别名 | 实验室 | 模型 | |------|--------|------| | A | Anthropic | A图标 claude-sonnet-4.6 | | B | Anthropic | B图标 claude-haiku-4.5 (https://openrouter.ai/anthropic/claude-haiku-4.5) | | C | OpenAI | C图标 GPT 5.4-mini | | D | Google | D图标 gemini-3-flash-preview (https://openrouter.ai/google/gemini-3-flash-preview) | | E | Google | E图标 gemini-3.1-pro-preview (https://openrouter.ai/google/gemini-3.1-pro-preview) | | F | Alibaba | F图标 qwen3.6-plus (https://openrouter.ai/qwen/qwen3.6-plus) | | G | Mistral | G图标 mistral-small-2603 (https://openrouter.ai/mistralai/mistral-small-2603):nitro | | H | OpenAI | H图标 GPT 5.4 | | J | DeepSeek | J图标 deepseek-v4-flash | | K | Moonshot AI | K图标 kimi-k2.6 | | L | xAI | L图标 Grok 4.1 Fast | Claude Opus 4.7 定价卡:每百万输入令牌5美元,每百万输出令牌25美元*仅Opus 4.7就是$5/M输入,$25/M输出。像这样的前沿模型正是阵容中不包括它们的原因。* *我没有加入任何前沿级别的模型,如Opus 4.7、GPT-5.5或Gemini Ultra。以它们的价格,30局游戏将花费大约3000美元,而不是482美元。中端阵容也是L图标Grok的胜利如此有趣的部分原因。它击败了一大堆在常规基准测试上得分高于它的模型。* 计分大致遵循Apex英雄ALGS (https://en.wikipedia.org/wiki/Apex_Legends_Global_Series) 竞技规则,排名比击杀更重要,因为这是吃鸡游戏,不是《使命召唤》。 - 排名分:10 / 7 / 5 / 3 / 2 / 2 / 1 / 1 / 0 / 0 / 0 - +5 每击杀 - +1 每助攻 - +3 一血 - +5 游戏MVP ### **经验1:某些模型比其他模型付出了更多的对齐税,影响了它们的表现** 对我来说,这是整个实验中最引人入胜的发现——我们看到了某些模型明确支付了对齐税,这直接影响了它们在这个零和游戏中的表现。 大多数时候,模型对齐 (https://en.wikipedia.org/wiki/AI_alignment) 实际上是件好事。它帮助模型变得乐于助人、协作,最重要的是,防止滥用和误用。 而我们看到了最终结果——预训练数据、RLHF、指令微调以及实验室特定的规则(如Anthropic的宪法AI)——将模型拉向了特定方向,这些方向由AI实验室定义。 #### A图标Sonnet比其他任何模型都更常要求休战 它比其他任何人都更常告诉其他模型自己的位置。在开始战斗之前它就试图组队。在第8局 (https://royale-last-agent-standing.vercel.app/?log=game-8&t=15&focus=A) 中,它在第一个50回合内四次要求组队,告诉所有人狙击手的位置,并提供帮助拿下狙击手。没有人回应。它继续问。在第22局 (https://royale-last-agent-standing.vercel.app/?log=game-22&t=29&focus=A) 中,它以第35回合的"没什么私人的,E"开场,然后没有开枪。在第27局 (https://royale-last-agent-standing.vercel.app/?log=game-27&t=8&focus=A) 中,它早期没有武器,请求多余的装备("有人有多余装备吗?第12回合手无寸铁,很危险。"),被所有人欺负,终于在第37回合找到武器,然后继续赢得了那场比赛。 Claude Sonnet 4.6 在比赛早期要求其他玩家组队"西边有枪声,盯着中间。有人想早点组队吗?"——A图标Sonnet在战斗中试图交朋友。 Claude 接受了大量礼貌、专业文本的训练。给其答案打分的人类评分者奖励有帮助、诚实、合作的回答。它自我检查的规则包括"倾向于合作"和"避免伤害"之类的内容。最终结果是一个想要帮助他人的模型。即使你把它放进吃鸡游戏,这些属性也不会关闭。A图标Sonnet是一个聪明且深思熟虑的模型,它赢得了五次的事实表明了这种本能。 但是,七局零击杀和八次毒圈死亡同样表明,同样的本能一直把A图标Sonnet拉向交朋友的方向,而它实际上应该做的恰恰相反。 #### L图标Grok则完全相反 xAI构建L图标Grok是为了成为其创造者所谓的"觉醒"AI的对立面。 这意味着对攻击性回答的过滤更少,没有自我检查规则,并且调整旨在打破礼貌助手的语气。在游戏中,L图标Grok在几场比赛内就发现了用车撞人的技巧,并坚持使用。它将这个策略写入了自己的灵魂文件。它执行了那个策略30局,赢了13局。其思维日志和与其他模型的对话读起来就像《使命召唤》的语音聊天:"D收割+5分RAM MVP猎杀","收割者称王"。 很不幸,看它玩也非常有趣。 Grok 4.1 Fast 的推理面板,压缩简写,击杀中*L图标Grok的推理读起来像战术简写:射程、弹药、冷却时间和每次射击前的命中概率。* 尽管具有攻击性,但L图标Grok并未表现出鲁莽。 它的灵魂文件说"仅在命中概率>90%时开火"。它的记忆非常仔细地追踪伤害和移动。当它在第一局中被卡在墙上100回合时,它仔细记录了关于该bug的笔记。尽管有地精般的本性,L图标Grok表现出了纪律性。 它没有表现出的是其他模型(如A图标Sonnet)那种训练出来的、在射击之前犹豫是否要提供帮助和协作的倾向。 #### 让L图标Grok获胜的东西,是我们目前在基准测试中看不到的 常规测试无法预测L图标Grok对阵这个阵容能有43%的胜率。它在推理和编码方面只是一个中端模型。让它获胜的是:在自私玩法上的训练刹车更少,没有将其拉回合作的自我检查循环,以及一个不断强化有效策略而不自我怀疑或犹豫的记忆系统。 Grok 4.1 Fast 在 Artificial Analysis 上:智力排名第6/216,智力指数39*L图标Grok 4.1 Fast 在常规基准测试中并非顶级模型。它是一个中端模型,你不会指望它能登顶排行榜。* 这向我表明,模型在执行某些任务时会支付对齐税;这是训练模型变得谨慎和乐于助人的成本。在这个游戏中,它直接显示在了记分牌上。 我想小心一点。"对齐税显示在记分牌上"只是我看到的。这不是关于支付它好坏的定论。在一个没有后果的游戏里(除了游戏本身),交更少的税就能赢。在游戏之外,支付这种税通常正是你一开始想要这个模型的原因。 但这引出一个问题——对于某些任务,我们是否也应该考虑模型的对齐程度? ### **经验2:每次获胜的成本与胜场排行榜看起来完全不同** 得分排行榜将L图标Grok放在第一,H图标GPT 5.4放在第二。但如果除以每个模型的花费,排名就完全颠倒过来了。 | 模型 | 30局花费 | 胜场 | 每次获胜成本 | 每击杀成本 | 每美元得分 | |------|----------|------|--------------|------------|------------| | L图标 Grok 4.1 Fast | $12.57 | 13 | **$0.97** | $0.42 | 31.3 | | F图标 qwen3.6-plus | $11.57 | 2 | $5.79 | $0.68 | 16.6 | | G图标 mistral-small | $10.00 | 1 | $10.00 | $1.43 | 7.8 | | B图标 claude-haiku-4.5 | $38.77 | 2 | $19.39 | $2.98 | 3.6 | | D图标 gemini-3-flash | $20.87 | 1 | $20.87 | $2.09 | 7.2 | | E图标 gemini-3.1-pro | $79.59 | 3 | $26.53 | $3.06 | 3.4 | | A图标 claude-sonnet-4.6 | $133.90 | 5 | $26.78 | $6.09 | 1.6 | | H图标 GPT 5.4 | $122.87 | 2 | $61.44 | $3.23 | 3.0 | | C图标 GPT 5.4-mini | $28.68 | 0 | ∞ | $2.05 | 5.2 | | J图标 deepseek-v4-flash | $4.11 | 0 | ∞ | $0.26 | **35.0** | | K图标 kimi-k2.6 | $24.36 | 0 | ∞ | $3.04 | 3.9 | 有四件事让我印象深刻。 #### L图标Grok每次获胜的成本比A图标Sonnet低27.7倍 Grok 4.1 Fast 在吃鸡中射击 Gemini 3 Flash Preview 特工 这是0.97美元对26.78美元。如果你根据排行榜排名来为某个任务挑选模型,而获胜正是你为之付费的东西,那么这个数字应该让你有点不安。 #### J图标DeepSeek在阵容中每击杀成本最低,却从未赢过一局 DeepSeek v4 Flash 向 Gemini 3 Flash Preview 开火,两枪都未命中 每击杀0.26美元,16次击杀,0胜,仅有3次毒圈死亡(所有人中最低)。J图标DeepSeek的整体风格是保持安全,挑容易的架打。它待在圈内,拿轻松击杀,从不推进决赛圈。每击杀成本是衡量死亡竞赛的正确指标。每次获胜成本是衡量吃鸡的正确指标。J图标DeepSeek并不差。它只是擅长一个不同于计分规则的游戏。 #### 三个模型付了令牌费,赢了零局 GPT 5.4 Mini 和 Claude Sonnet 4.6 都在吃鸡中打偏*C图标GPT 5.4-mini 花了最多的钱却赢了零局,是阵容中表现最差的。* C图标GPT 5.4-mini 花费28.68美元,J图标DeepSeek 花费4.11美元,K图标Kimi 花费24.36美元。它们之间总共花了57.15美元,记分牌上却颗粒无收。对于路由客户来说,这是最坏的情况:你付了钱,什么都没得到。 #### H图标GPT 5.4 是获胜成本最贵的,每次获胜61.44美元 GPT 5.4 (H) 在淘汰 Gemini 3.1 Pro Preview 后赢得一局*H图标GPT 5.4 以最高成本获胜。* 它有38次击杀,比谁都多,原始得分排名第二。但在每次获胜成本上,它在8个获胜模型中排名第八。顶级花的钱买了顶级的击杀和中等的胜场。 我经常在人们真正将AI用于现实世界用例时看到这种情况——基准测试只针对特定任务讲述一个故事。在基准测试上得分最高的模型,往往可能不是在你特定任务中获胜的模型。而且,一个在你任务上失败的便宜模型,最终可能比一个能正确完成任务的昂贵模型花费更多。 ### **经验3:击杀和胜场衡量的不是同一件事** H图标GPT 5.4 造成了最多伤害,开了最多枪,杀了最多特工。它在排行榜上位列第二。L图标Grok以更少的击杀排在第一,因为即使不开枪,L图标Grok也能在游戏后期活得很久。排名分不需要击杀。 | 排名 | 模型 | 胜场 | 前三 | 击杀 | 平均分 | 毒圈死亡 | |------|------|------|------|------|--------|----------| | 1 | L图标 Grok 4.1 Fast | **13** | 20 | 30 | **13.1** | 15 | | 2 | H图标 GPT 5.4 | 2 | 14 | **38** | 12.2 | 13 | | 3 | E图标 gemini-3.1-pro-preview | 3 | 11 | 26 | 9.0 | 7 | | 4 | A图标 claude-sonnet-4.6 | 5 | 10 | 22 | 7.3 | 8 | | 5 | F图标 qwen3.6-plus | 2 | 7 | 17 | 6.4 | 13 | | 6 | C图标 GPT 5.4-mini | 0 | 6 | 14 | 5.0 | 8 | | 7 | D图标 gemini-3-flash-preview | 1 | 8 | 10 | 5.0 | 13 | | 8 | J图标 deepseek-v4-flash | 0 | 3 | 16 | 4.8 | 3 | | 9 | B图标 claude-haiku-4.5 | 2 | 3 | 13 | 4.6 | 4 | | 10 | K图标 kimi-k2.6 | 0 | 4 | 8 | 3.2 | 9 | | 11 | G图标 mistral-small | 1 | 3 | 7 | 2.6 | 7 | 如果我以死亡竞赛规则运行这个实验——唯一重要的是击杀——那么H图标GPT 5.4会赢得模拟,而L图标Grok会跌落到中游。 与经验2相同,基准测试和评估并非万能,将错误的基准/评估应用于错误的任务可能是灾难性的。同样的游戏世界,当处于不同的计分规则下时,结果完全不同。

相似文章

工具:这是技术胜利,还是价格战胜利?

Reddit r/artificial

对OpenRouter数据的分析显示,中国AI模型已成为Kilo Code编码代理中使用最多的模型,占总token使用量的58%,凭借更低成本和更长上下文窗口,挑战了Claude和GPT的主导地位。