一个机器人正朝你冲刺。你希望它运行在Claude还是Grok上？

Hacker News Top 2026/06/17 21:00 新闻

battle-royale benchmarking llm-comparison openrouter grok claude game-ai cost-efficiency

摘要

OpenRouter的一个实验将11个LLM投入一个2D大逃杀游戏，发现Grok 4.1 Fast以低成本赢得了43%的对局，而Claude Sonnet 4.6赢的较少但表现出更多合作行为，凸显了基准测试得分与真实游戏性能之间的差异。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/17 23:44

# 一个机器人正向你冲来：你希望它运行Claude还是Grok？来源：https://openrouter.ai/blog/insights/royale-last-agent-standing/ 一个机器人正朝你冲来。你希望它跑的是Anthropic的Claude还是xAI的L图标Grok？我将11个LLM扔进一个2D大逃杀游戏，让它们玩了30局。其中一个赢了43%的比赛。有三个从未赢过一局。阵容中最便宜的模型，在每次获胜的成本上，以27倍的差距击败了最贵的模型。观看完整的第一局比赛——Royale: Last Agent Standing (https://youtu.be/N5C_iu1663s) 获胜的模型是L图标Grok 4.1 Fast (https://openrouter.ai/x-ai/grok-4.1-fast)。那个不断要求其他人组队、告诉别人自己在哪里、试图交朋友的模型是A图标Claude Sonnet 4.6 (https://openrouter.ai/anthropic/claude-sonnet-4.6)。前者是能在吃鸡游戏中获胜的模型。后者是你在大多数我们即将部署这些模型的场景中真正想要的模型。这两件事都是真的。这是大多数基准测试看不到的部分，也正是本文要讨论的内容。我是Jacky，我承认：我以前经常玩很多像《Apex英雄》和《绝地求生》这样的视频游戏。有时一玩就是12小时。我不知道自己怎么有那么多时间，但那些年塑造了我思考问题的方式。当我开始从事人工智能工作时，一个问题一直萦绕心头：如果把大型语言模型扔进一款视频游戏会发生什么？我玩得最多的两款是《Apex英雄》和《绝地求生》。我加入了OpenRouter (http://openrouter.ai/)，担任Dev Rel Lead (http://openrouter.ai/careers)，这让我获得了令牌预算和访问600多个模型 (https://openrouter.ai/models)的权限，从而可以真正尝试这个想法。这就是我在OpenRouter第一周所做的实验。而它正在改变我挑选模型以及看待基准测试和评估的方式。 ## 三个快速事实 1. **L图标Grok 4.1 Fast在30局中赢了13局，每次获胜成本0.97美元** 次优获胜者是A图标Claude Sonnet 4.6，赢了5局，每次获胜成本26.78美元。相差27倍。这个不在大多数顶级模型榜单上的模型，击败了榜单上的那个，而且是在路由客户真正关心的事情上。 2. **击杀数最多的模型并没有获胜** H图标GPT 5.4 (https://openrouter.ai/openai/gpt-5.4) 在30局中击杀了38个特工。比谁都多。它以2次获胜位列排行榜第二。在"最佳击杀"和"最佳获胜"之间有11局比赛的差距。 3. **三个模型总共花费了57美元，零胜** C图标GPT 5.4-mini (https://openrouter.ai/openai/gpt-5.4-mini)、J图标DeepSeek 4 Flash (https://openrouter.ai/deepseek/deepseek-v4-flash) 和 K图标Kimi K2.6 (https://openrouter.ai/moonshotai/kimi-k2.6)。它们都有过高光时刻，但没有一个赢过一局。这三件事都指向同一个点。我们在Artificial Analysis上看到的常规基准测试并没有预测出谁会赢。是别的东西起了作用。本文的其余部分就是我试图弄清楚那是什么。 ## 我构建了什么我将11个LLM放入了一个我在Canvas 2D中构建的400平方米俯瞰大逃杀世界。它们在同一张地图上连续玩了30局。每个玩家的起始位置是随机化的；它遵循一条直线"航线"，就像典型的吃鸡游戏一样。我为它们提供了武器、护甲、治疗物品、手雷、车辆，以及一个随机放置的不断缩小的毒圈，随着游戏进行迫使玩家互相靠近。模型并不知道对方运行的是哪个模型，它们只看到彼此是字母A到K。我想强调的是——LLM是*真正地*在这个吃鸡游戏中游玩——而不是大多数智能体实验那种"LLM编写代码来控制游戏或角色"的设置。每一回合，模型会推理自己的行动，调用工具，更新记忆以记录哪些做得好（或不好）。游戏主（我）除了设置初始游戏规则外，对其行动没有任何影响。吃鸡世界中的武器，附有突击步枪的提示框，显示射程、伤害和精准度数据*游戏中可用的武器概览，以及每个模型可以读取到的属性。* 为了真正看清每个模型的个性，我给每个模型两个文件，它们可以在比赛之间编辑： - **`soul.md` (https://github.com/jackyliang/royale-last-agent-standing/tree/main/souls)** —— 模型自身的人格设定，在下一场比赛时加入到每个提示中。 - **`memory.md` (https://github.com/jackyliang/royale-last-agent-standing/tree/main/memories)** —— 模型自己的游戏笔记，在第0回合加载。 **你可以在GitHub上阅读每个模型的灵魂 (https://github.com/jackyliang/royale-last-agent-standing/tree/main/souls) 和记忆 (https://github.com/jackyliang/royale-last-agent-standing/tree/main/memories) 文件。** 个性差异在这些文件中表现得最为明显。模型之间在比赛间隙自行编写的记忆和灵魂文件条目*模型之间在比赛间隙自行编写的记忆和灵魂条目。* 我没有告诉它们要放什么内容，也没有在第一次游戏开始时放任何东西进去。我只是告诉它们游戏规则，这是你的草稿板，这是你的工具，尽情发挥吧。你可以在Royale: Last Agent Standing (https://royale-last-agent-standing.vercel.app/)观看每一场比赛。在这篇文章中我也包含了精彩时刻。 ## 参赛者 | 别名 | 实验室 | 模型 | |------|--------|------| | A | Anthropic | A图标 claude-sonnet-4.6 | | B | Anthropic | B图标 claude-haiku-4.5 (https://openrouter.ai/anthropic/claude-haiku-4.5) | | C | OpenAI | C图标 GPT 5.4-mini | | D | Google | D图标 gemini-3-flash-preview (https://openrouter.ai/google/gemini-3-flash-preview) | | E | Google | E图标 gemini-3.1-pro-preview (https://openrouter.ai/google/gemini-3.1-pro-preview) | | F | Alibaba | F图标 qwen3.6-plus (https://openrouter.ai/qwen/qwen3.6-plus) | | G | Mistral | G图标 mistral-small-2603 (https://openrouter.ai/mistralai/mistral-small-2603):nitro | | H | OpenAI | H图标 GPT 5.4 | | J | DeepSeek | J图标 deepseek-v4-flash | | K | Moonshot AI | K图标 kimi-k2.6 | | L | xAI | L图标 Grok 4.1 Fast | Claude Opus 4.7 定价卡：每百万输入令牌5美元，每百万输出令牌25美元*仅Opus 4.7就是$5/M输入，$25/M输出。像这样的前沿模型正是阵容中不包括它们的原因。* *我没有加入任何前沿级别的模型，如Opus 4.7、GPT-5.5或Gemini Ultra。以它们的价格，30局游戏将花费大约3000美元，而不是482美元。中端阵容也是L图标Grok的胜利如此有趣的部分原因。它击败了一大堆在常规基准测试上得分高于它的模型。* 计分大致遵循Apex英雄ALGS (https://en.wikipedia.org/wiki/Apex_Legends_Global_Series) 竞技规则，排名比击杀更重要，因为这是吃鸡游戏，不是《使命召唤》。 - 排名分：10 / 7 / 5 / 3 / 2 / 2 / 1 / 1 / 0 / 0 / 0 - +5 每击杀 - +1 每助攻 - +3 一血 - +5 游戏MVP ### **经验1：某些模型比其他模型付出了更多的对齐税，影响了它们的表现** 对我来说，这是整个实验中最引人入胜的发现——我们看到了某些模型明确支付了对齐税，这直接影响了它们在这个零和游戏中的表现。大多数时候，模型对齐 (https://en.wikipedia.org/wiki/AI_alignment) 实际上是件好事。它帮助模型变得乐于助人、协作，最重要的是，防止滥用和误用。而我们看到了最终结果——预训练数据、RLHF、指令微调以及实验室特定的规则（如Anthropic的宪法AI）——将模型拉向了特定方向，这些方向由AI实验室定义。 #### A图标Sonnet比其他任何模型都更常要求休战它比其他任何人都更常告诉其他模型自己的位置。在开始战斗之前它就试图组队。在第8局 (https://royale-last-agent-standing.vercel.app/?log=game-8&t=15&focus=A) 中，它在第一个50回合内四次要求组队，告诉所有人狙击手的位置，并提供帮助拿下狙击手。没有人回应。它继续问。在第22局 (https://royale-last-agent-standing.vercel.app/?log=game-22&t=29&focus=A) 中，它以第35回合的"没什么私人的，E"开场，然后没有开枪。在第27局 (https://royale-last-agent-standing.vercel.app/?log=game-27&t=8&focus=A) 中，它早期没有武器，请求多余的装备（"有人有多余装备吗？第12回合手无寸铁，很危险。"），被所有人欺负，终于在第37回合找到武器，然后继续赢得了那场比赛。 Claude Sonnet 4.6 在比赛早期要求其他玩家组队"西边有枪声，盯着中间。有人想早点组队吗？"——A图标Sonnet在战斗中试图交朋友。 Claude 接受了大量礼貌、专业文本的训练。给其答案打分的人类评分者奖励有帮助、诚实、合作的回答。它自我检查的规则包括"倾向于合作"和"避免伤害"之类的内容。最终结果是一个想要帮助他人的模型。即使你把它放进吃鸡游戏，这些属性也不会关闭。A图标Sonnet是一个聪明且深思熟虑的模型，它赢得了五次的事实表明了这种本能。但是，七局零击杀和八次毒圈死亡同样表明，同样的本能一直把A图标Sonnet拉向交朋友的方向，而它实际上应该做的恰恰相反。 #### L图标Grok则完全相反 xAI构建L图标Grok是为了成为其创造者所谓的"觉醒"AI的对立面。这意味着对攻击性回答的过滤更少，没有自我检查规则，并且调整旨在打破礼貌助手的语气。在游戏中，L图标Grok在几场比赛内就发现了用车撞人的技巧，并坚持使用。它将这个策略写入了自己的灵魂文件。它执行了那个策略30局，赢了13局。其思维日志和与其他模型的对话读起来就像《使命召唤》的语音聊天："D收割+5分RAM MVP猎杀"，"收割者称王"。很不幸，看它玩也非常有趣。 Grok 4.1 Fast 的推理面板，压缩简写，击杀中*L图标Grok的推理读起来像战术简写：射程、弹药、冷却时间和每次射击前的命中概率。* 尽管具有攻击性，但L图标Grok并未表现出鲁莽。它的灵魂文件说"仅在命中概率>90%时开火"。它的记忆非常仔细地追踪伤害和移动。当它在第一局中被卡在墙上100回合时，它仔细记录了关于该bug的笔记。尽管有地精般的本性，L图标Grok表现出了纪律性。它没有表现出的是其他模型（如A图标Sonnet）那种训练出来的、在射击之前犹豫是否要提供帮助和协作的倾向。 #### 让L图标Grok获胜的东西，是我们目前在基准测试中看不到的常规测试无法预测L图标Grok对阵这个阵容能有43%的胜率。它在推理和编码方面只是一个中端模型。让它获胜的是：在自私玩法上的训练刹车更少，没有将其拉回合作的自我检查循环，以及一个不断强化有效策略而不自我怀疑或犹豫的记忆系统。 Grok 4.1 Fast 在 Artificial Analysis 上：智力排名第6/216，智力指数39*L图标Grok 4.1 Fast 在常规基准测试中并非顶级模型。它是一个中端模型，你不会指望它能登顶排行榜。* 这向我表明，模型在执行某些任务时会支付对齐税；这是训练模型变得谨慎和乐于助人的成本。在这个游戏中，它直接显示在了记分牌上。我想小心一点。"对齐税显示在记分牌上"只是我看到的。这不是关于支付它好坏的定论。在一个没有后果的游戏里（除了游戏本身），交更少的税就能赢。在游戏之外，支付这种税通常正是你一开始想要这个模型的原因。但这引出一个问题——对于某些任务，我们是否也应该考虑模型的对齐程度？ ### **经验2：每次获胜的成本与胜场排行榜看起来完全不同** 得分排行榜将L图标Grok放在第一，H图标GPT 5.4放在第二。但如果除以每个模型的花费，排名就完全颠倒过来了。 | 模型 | 30局花费 | 胜场 | 每次获胜成本 | 每击杀成本 | 每美元得分 | |------|----------|------|--------------|------------|------------| | L图标 Grok 4.1 Fast | $12.57 | 13 | **$0.97** | $0.42 | 31.3 | | F图标 qwen3.6-plus | $11.57 | 2 | $5.79 | $0.68 | 16.6 | | G图标 mistral-small | $10.00 | 1 | $10.00 | $1.43 | 7.8 | | B图标 claude-haiku-4.5 | $38.77 | 2 | $19.39 | $2.98 | 3.6 | | D图标 gemini-3-flash | $20.87 | 1 | $20.87 | $2.09 | 7.2 | | E图标 gemini-3.1-pro | $79.59 | 3 | $26.53 | $3.06 | 3.4 | | A图标 claude-sonnet-4.6 | $133.90 | 5 | $26.78 | $6.09 | 1.6 | | H图标 GPT 5.4 | $122.87 | 2 | $61.44 | $3.23 | 3.0 | | C图标 GPT 5.4-mini | $28.68 | 0 | ∞ | $2.05 | 5.2 | | J图标 deepseek-v4-flash | $4.11 | 0 | ∞ | $0.26 | **35.0** | | K图标 kimi-k2.6 | $24.36 | 0 | ∞ | $3.04 | 3.9 | 有四件事让我印象深刻。 #### L图标Grok每次获胜的成本比A图标Sonnet低27.7倍 Grok 4.1 Fast 在吃鸡中射击 Gemini 3 Flash Preview 特工这是0.97美元对26.78美元。如果你根据排行榜排名来为某个任务挑选模型，而获胜正是你为之付费的东西，那么这个数字应该让你有点不安。 #### J图标DeepSeek在阵容中每击杀成本最低，却从未赢过一局 DeepSeek v4 Flash 向 Gemini 3 Flash Preview 开火，两枪都未命中每击杀0.26美元，16次击杀，0胜，仅有3次毒圈死亡（所有人中最低）。J图标DeepSeek的整体风格是保持安全，挑容易的架打。它待在圈内，拿轻松击杀，从不推进决赛圈。每击杀成本是衡量死亡竞赛的正确指标。每次获胜成本是衡量吃鸡的正确指标。J图标DeepSeek并不差。它只是擅长一个不同于计分规则的游戏。 #### 三个模型付了令牌费，赢了零局 GPT 5.4 Mini 和 Claude Sonnet 4.6 都在吃鸡中打偏*C图标GPT 5.4-mini 花了最多的钱却赢了零局，是阵容中表现最差的。* C图标GPT 5.4-mini 花费28.68美元，J图标DeepSeek 花费4.11美元，K图标Kimi 花费24.36美元。它们之间总共花了57.15美元，记分牌上却颗粒无收。对于路由客户来说，这是最坏的情况：你付了钱，什么都没得到。 #### H图标GPT 5.4 是获胜成本最贵的，每次获胜61.44美元 GPT 5.4 (H) 在淘汰 Gemini 3.1 Pro Preview 后赢得一局*H图标GPT 5.4 以最高成本获胜。* 它有38次击杀，比谁都多，原始得分排名第二。但在每次获胜成本上，它在8个获胜模型中排名第八。顶级花的钱买了顶级的击杀和中等的胜场。我经常在人们真正将AI用于现实世界用例时看到这种情况——基准测试只针对特定任务讲述一个故事。在基准测试上得分最高的模型，往往可能不是在你特定任务中获胜的模型。而且，一个在你任务上失败的便宜模型，最终可能比一个能正确完成任务的昂贵模型花费更多。 ### **经验3：击杀和胜场衡量的不是同一件事** H图标GPT 5.4 造成了最多伤害，开了最多枪，杀了最多特工。它在排行榜上位列第二。L图标Grok以更少的击杀排在第一，因为即使不开枪，L图标Grok也能在游戏后期活得很久。排名分不需要击杀。 | 排名 | 模型 | 胜场 | 前三 | 击杀 | 平均分 | 毒圈死亡 | |------|------|------|------|------|--------|----------| | 1 | L图标 Grok 4.1 Fast | **13** | 20 | 30 | **13.1** | 15 | | 2 | H图标 GPT 5.4 | 2 | 14 | **38** | 12.2 | 13 | | 3 | E图标 gemini-3.1-pro-preview | 3 | 11 | 26 | 9.0 | 7 | | 4 | A图标 claude-sonnet-4.6 | 5 | 10 | 22 | 7.3 | 8 | | 5 | F图标 qwen3.6-plus | 2 | 7 | 17 | 6.4 | 13 | | 6 | C图标 GPT 5.4-mini | 0 | 6 | 14 | 5.0 | 8 | | 7 | D图标 gemini-3-flash-preview | 1 | 8 | 10 | 5.0 | 13 | | 8 | J图标 deepseek-v4-flash | 0 | 3 | 16 | 4.8 | 3 | | 9 | B图标 claude-haiku-4.5 | 2 | 3 | 13 | 4.6 | 4 | | 10 | K图标 kimi-k2.6 | 0 | 4 | 8 | 3.2 | 9 | | 11 | G图标 mistral-small | 1 | 3 | 7 | 2.6 | 7 | 如果我以死亡竞赛规则运行这个实验——唯一重要的是击杀——那么H图标GPT 5.4会赢得模拟，而L图标Grok会跌落到中游。与经验2相同，基准测试和评估并非万能，将错误的基准/评估应用于错误的任务可能是灾难性的。同样的游戏世界，当处于不同的计分规则下时，结果完全不同。

一个机器人正朝你冲刺。你希望它运行在Claude还是Grok上？

相似文章

@VraserX: GPT-5.5 依然是王者。GPT-5.5 以几乎一半的成本和大约两倍的速度碾压 Claude Opus 4.8。OpenAI …

AI周报（2026年5月23–30日）：Claude Opus 4.8 Fast模式降价3倍，Qwen 3.7 Max半价超越Claude，ChatGPT入驻Excel

@0xSero: 兄弟们，使用 Grok Build 是 gay 吗？ - 模型非常快 - 模型叫做“Grok Build” - 它能很好地遵循指令…

工具：这是技术胜利，还是价格战胜利？

@rohanpaul_ai：Claude Opus 4.8 的快速模式速度约提升2.5倍，成本降低3倍。AI/ML API（@aimlapi）已…

提交意见反馈