一个机器人正朝你冲刺。你希望它运行在Claude还是Grok上?
摘要
OpenRouter的一个实验将11个LLM投入一个2D大逃杀游戏,发现Grok 4.1 Fast以低成本赢得了43%的对局,而Claude Sonnet 4.6赢的较少但表现出更多合作行为,凸显了基准测试得分与真实游戏性能之间的差异。
暂无内容
查看缓存全文
缓存时间: 2026/06/17 23:44
# 一个机器人正向你冲来:你希望它运行Claude还是Grok?
来源:https://openrouter.ai/blog/insights/royale-last-agent-standing/
一个机器人正朝你冲来。你希望它跑的是Anthropic的Claude还是xAI的L图标Grok?
我将11个LLM扔进一个2D大逃杀游戏,让它们玩了30局。其中一个赢了43%的比赛。有三个从未赢过一局。阵容中最便宜的模型,在每次获胜的成本上,以27倍的差距击败了最贵的模型。
观看完整的第一局比赛——Royale: Last Agent Standing (https://youtu.be/N5C_iu1663s)
获胜的模型是L图标Grok 4.1 Fast (https://openrouter.ai/x-ai/grok-4.1-fast)。那个不断要求其他人组队、告诉别人自己在哪里、试图交朋友的模型是A图标Claude Sonnet 4.6 (https://openrouter.ai/anthropic/claude-sonnet-4.6)。前者是能在吃鸡游戏中获胜的模型。后者是你在大多数我们即将部署这些模型的场景中真正想要的模型。
这两件事都是真的。这是大多数基准测试看不到的部分,也正是本文要讨论的内容。
我是Jacky,我承认:我以前经常玩很多像《Apex英雄》和《绝地求生》这样的视频游戏。有时一玩就是12小时。我不知道自己怎么有那么多时间,但那些年塑造了我思考问题的方式。
当我开始从事人工智能工作时,一个问题一直萦绕心头:如果把大型语言模型扔进一款视频游戏会发生什么?我玩得最多的两款是《Apex英雄》和《绝地求生》。我加入了OpenRouter (http://openrouter.ai/),担任Dev Rel Lead (http://openrouter.ai/careers),这让我获得了令牌预算和访问600多个模型 (https://openrouter.ai/models)的权限,从而可以真正尝试这个想法。
这就是我在OpenRouter第一周所做的实验。
而它正在改变我挑选模型以及看待基准测试和评估的方式。
## 三个快速事实
1. **L图标Grok 4.1 Fast在30局中赢了13局,每次获胜成本0.97美元** 次优获胜者是A图标Claude Sonnet 4.6,赢了5局,每次获胜成本26.78美元。相差27倍。这个不在大多数顶级模型榜单上的模型,击败了榜单上的那个,而且是在路由客户真正关心的事情上。
2. **击杀数最多的模型并没有获胜** H图标GPT 5.4 (https://openrouter.ai/openai/gpt-5.4) 在30局中击杀了38个特工。比谁都多。它以2次获胜位列排行榜第二。在"最佳击杀"和"最佳获胜"之间有11局比赛的差距。
3. **三个模型总共花费了57美元,零胜** C图标GPT 5.4-mini (https://openrouter.ai/openai/gpt-5.4-mini)、J图标DeepSeek 4 Flash (https://openrouter.ai/deepseek/deepseek-v4-flash) 和 K图标Kimi K2.6 (https://openrouter.ai/moonshotai/kimi-k2.6)。它们都有过高光时刻,但没有一个赢过一局。
这三件事都指向同一个点。我们在Artificial Analysis上看到的常规基准测试并没有预测出谁会赢。是别的东西起了作用。本文的其余部分就是我试图弄清楚那是什么。
## 我构建了什么
我将11个LLM放入了一个我在Canvas 2D中构建的400平方米俯瞰大逃杀世界。它们在同一张地图上连续玩了30局。每个玩家的起始位置是随机化的;它遵循一条直线"航线",就像典型的吃鸡游戏一样。
我为它们提供了武器、护甲、治疗物品、手雷、车辆,以及一个随机放置的不断缩小的毒圈,随着游戏进行迫使玩家互相靠近。模型并不知道对方运行的是哪个模型,它们只看到彼此是字母A到K。
我想强调的是——LLM是*真正地*在这个吃鸡游戏中游玩——而不是大多数智能体实验那种"LLM编写代码来控制游戏或角色"的设置。每一回合,模型会推理自己的行动,调用工具,更新记忆以记录哪些做得好(或不好)。游戏主(我)除了设置初始游戏规则外,对其行动没有任何影响。
吃鸡世界中的武器,附有突击步枪的提示框,显示射程、伤害和精准度数据*游戏中可用的武器概览,以及每个模型可以读取到的属性。*
为了真正看清每个模型的个性,我给每个模型两个文件,它们可以在比赛之间编辑:
- **`soul.md` (https://github.com/jackyliang/royale-last-agent-standing/tree/main/souls)** —— 模型自身的人格设定,在下一场比赛时加入到每个提示中。
- **`memory.md` (https://github.com/jackyliang/royale-last-agent-standing/tree/main/memories)** —— 模型自己的游戏笔记,在第0回合加载。
**你可以在GitHub上阅读每个模型的灵魂 (https://github.com/jackyliang/royale-last-agent-standing/tree/main/souls) 和记忆 (https://github.com/jackyliang/royale-last-agent-standing/tree/main/memories) 文件。** 个性差异在这些文件中表现得最为明显。
模型之间在比赛间隙自行编写的记忆和灵魂文件条目*模型之间在比赛间隙自行编写的记忆和灵魂条目。*
我没有告诉它们要放什么内容,也没有在第一次游戏开始时放任何东西进去。我只是告诉它们游戏规则,这是你的草稿板,这是你的工具,尽情发挥吧。
你可以在Royale: Last Agent Standing (https://royale-last-agent-standing.vercel.app/)观看每一场比赛。在这篇文章中我也包含了精彩时刻。
## 参赛者
| 别名 | 实验室 | 模型 |
|------|--------|------|
| A | Anthropic | A图标 claude-sonnet-4.6 |
| B | Anthropic | B图标 claude-haiku-4.5 (https://openrouter.ai/anthropic/claude-haiku-4.5) |
| C | OpenAI | C图标 GPT 5.4-mini |
| D | Google | D图标 gemini-3-flash-preview (https://openrouter.ai/google/gemini-3-flash-preview) |
| E | Google | E图标 gemini-3.1-pro-preview (https://openrouter.ai/google/gemini-3.1-pro-preview) |
| F | Alibaba | F图标 qwen3.6-plus (https://openrouter.ai/qwen/qwen3.6-plus) |
| G | Mistral | G图标 mistral-small-2603 (https://openrouter.ai/mistralai/mistral-small-2603):nitro |
| H | OpenAI | H图标 GPT 5.4 |
| J | DeepSeek | J图标 deepseek-v4-flash |
| K | Moonshot AI | K图标 kimi-k2.6 |
| L | xAI | L图标 Grok 4.1 Fast |
Claude Opus 4.7 定价卡:每百万输入令牌5美元,每百万输出令牌25美元*仅Opus 4.7就是$5/M输入,$25/M输出。像这样的前沿模型正是阵容中不包括它们的原因。*
*我没有加入任何前沿级别的模型,如Opus 4.7、GPT-5.5或Gemini Ultra。以它们的价格,30局游戏将花费大约3000美元,而不是482美元。中端阵容也是L图标Grok的胜利如此有趣的部分原因。它击败了一大堆在常规基准测试上得分高于它的模型。*
计分大致遵循Apex英雄ALGS (https://en.wikipedia.org/wiki/Apex_Legends_Global_Series) 竞技规则,排名比击杀更重要,因为这是吃鸡游戏,不是《使命召唤》。
- 排名分:10 / 7 / 5 / 3 / 2 / 2 / 1 / 1 / 0 / 0 / 0
- +5 每击杀
- +1 每助攻
- +3 一血
- +5 游戏MVP
### **经验1:某些模型比其他模型付出了更多的对齐税,影响了它们的表现**
对我来说,这是整个实验中最引人入胜的发现——我们看到了某些模型明确支付了对齐税,这直接影响了它们在这个零和游戏中的表现。
大多数时候,模型对齐 (https://en.wikipedia.org/wiki/AI_alignment) 实际上是件好事。它帮助模型变得乐于助人、协作,最重要的是,防止滥用和误用。
而我们看到了最终结果——预训练数据、RLHF、指令微调以及实验室特定的规则(如Anthropic的宪法AI)——将模型拉向了特定方向,这些方向由AI实验室定义。
#### A图标Sonnet比其他任何模型都更常要求休战
它比其他任何人都更常告诉其他模型自己的位置。在开始战斗之前它就试图组队。在第8局 (https://royale-last-agent-standing.vercel.app/?log=game-8&t=15&focus=A) 中,它在第一个50回合内四次要求组队,告诉所有人狙击手的位置,并提供帮助拿下狙击手。没有人回应。它继续问。在第22局 (https://royale-last-agent-standing.vercel.app/?log=game-22&t=29&focus=A) 中,它以第35回合的"没什么私人的,E"开场,然后没有开枪。在第27局 (https://royale-last-agent-standing.vercel.app/?log=game-27&t=8&focus=A) 中,它早期没有武器,请求多余的装备("有人有多余装备吗?第12回合手无寸铁,很危险。"),被所有人欺负,终于在第37回合找到武器,然后继续赢得了那场比赛。
Claude Sonnet 4.6 在比赛早期要求其他玩家组队"西边有枪声,盯着中间。有人想早点组队吗?"——A图标Sonnet在战斗中试图交朋友。
Claude 接受了大量礼貌、专业文本的训练。给其答案打分的人类评分者奖励有帮助、诚实、合作的回答。它自我检查的规则包括"倾向于合作"和"避免伤害"之类的内容。最终结果是一个想要帮助他人的模型。即使你把它放进吃鸡游戏,这些属性也不会关闭。A图标Sonnet是一个聪明且深思熟虑的模型,它赢得了五次的事实表明了这种本能。
但是,七局零击杀和八次毒圈死亡同样表明,同样的本能一直把A图标Sonnet拉向交朋友的方向,而它实际上应该做的恰恰相反。
#### L图标Grok则完全相反
xAI构建L图标Grok是为了成为其创造者所谓的"觉醒"AI的对立面。
这意味着对攻击性回答的过滤更少,没有自我检查规则,并且调整旨在打破礼貌助手的语气。在游戏中,L图标Grok在几场比赛内就发现了用车撞人的技巧,并坚持使用。它将这个策略写入了自己的灵魂文件。它执行了那个策略30局,赢了13局。其思维日志和与其他模型的对话读起来就像《使命召唤》的语音聊天:"D收割+5分RAM MVP猎杀","收割者称王"。
很不幸,看它玩也非常有趣。
Grok 4.1 Fast 的推理面板,压缩简写,击杀中*L图标Grok的推理读起来像战术简写:射程、弹药、冷却时间和每次射击前的命中概率。*
尽管具有攻击性,但L图标Grok并未表现出鲁莽。
它的灵魂文件说"仅在命中概率>90%时开火"。它的记忆非常仔细地追踪伤害和移动。当它在第一局中被卡在墙上100回合时,它仔细记录了关于该bug的笔记。尽管有地精般的本性,L图标Grok表现出了纪律性。
它没有表现出的是其他模型(如A图标Sonnet)那种训练出来的、在射击之前犹豫是否要提供帮助和协作的倾向。
#### 让L图标Grok获胜的东西,是我们目前在基准测试中看不到的
常规测试无法预测L图标Grok对阵这个阵容能有43%的胜率。它在推理和编码方面只是一个中端模型。让它获胜的是:在自私玩法上的训练刹车更少,没有将其拉回合作的自我检查循环,以及一个不断强化有效策略而不自我怀疑或犹豫的记忆系统。
Grok 4.1 Fast 在 Artificial Analysis 上:智力排名第6/216,智力指数39*L图标Grok 4.1 Fast 在常规基准测试中并非顶级模型。它是一个中端模型,你不会指望它能登顶排行榜。*
这向我表明,模型在执行某些任务时会支付对齐税;这是训练模型变得谨慎和乐于助人的成本。在这个游戏中,它直接显示在了记分牌上。
我想小心一点。"对齐税显示在记分牌上"只是我看到的。这不是关于支付它好坏的定论。在一个没有后果的游戏里(除了游戏本身),交更少的税就能赢。在游戏之外,支付这种税通常正是你一开始想要这个模型的原因。
但这引出一个问题——对于某些任务,我们是否也应该考虑模型的对齐程度?
### **经验2:每次获胜的成本与胜场排行榜看起来完全不同**
得分排行榜将L图标Grok放在第一,H图标GPT 5.4放在第二。但如果除以每个模型的花费,排名就完全颠倒过来了。
| 模型 | 30局花费 | 胜场 | 每次获胜成本 | 每击杀成本 | 每美元得分 |
|------|----------|------|--------------|------------|------------|
| L图标 Grok 4.1 Fast | $12.57 | 13 | **$0.97** | $0.42 | 31.3 |
| F图标 qwen3.6-plus | $11.57 | 2 | $5.79 | $0.68 | 16.6 |
| G图标 mistral-small | $10.00 | 1 | $10.00 | $1.43 | 7.8 |
| B图标 claude-haiku-4.5 | $38.77 | 2 | $19.39 | $2.98 | 3.6 |
| D图标 gemini-3-flash | $20.87 | 1 | $20.87 | $2.09 | 7.2 |
| E图标 gemini-3.1-pro | $79.59 | 3 | $26.53 | $3.06 | 3.4 |
| A图标 claude-sonnet-4.6 | $133.90 | 5 | $26.78 | $6.09 | 1.6 |
| H图标 GPT 5.4 | $122.87 | 2 | $61.44 | $3.23 | 3.0 |
| C图标 GPT 5.4-mini | $28.68 | 0 | ∞ | $2.05 | 5.2 |
| J图标 deepseek-v4-flash | $4.11 | 0 | ∞ | $0.26 | **35.0** |
| K图标 kimi-k2.6 | $24.36 | 0 | ∞ | $3.04 | 3.9 |
有四件事让我印象深刻。
#### L图标Grok每次获胜的成本比A图标Sonnet低27.7倍
Grok 4.1 Fast 在吃鸡中射击 Gemini 3 Flash Preview 特工
这是0.97美元对26.78美元。如果你根据排行榜排名来为某个任务挑选模型,而获胜正是你为之付费的东西,那么这个数字应该让你有点不安。
#### J图标DeepSeek在阵容中每击杀成本最低,却从未赢过一局
DeepSeek v4 Flash 向 Gemini 3 Flash Preview 开火,两枪都未命中
每击杀0.26美元,16次击杀,0胜,仅有3次毒圈死亡(所有人中最低)。J图标DeepSeek的整体风格是保持安全,挑容易的架打。它待在圈内,拿轻松击杀,从不推进决赛圈。每击杀成本是衡量死亡竞赛的正确指标。每次获胜成本是衡量吃鸡的正确指标。J图标DeepSeek并不差。它只是擅长一个不同于计分规则的游戏。
#### 三个模型付了令牌费,赢了零局
GPT 5.4 Mini 和 Claude Sonnet 4.6 都在吃鸡中打偏*C图标GPT 5.4-mini 花了最多的钱却赢了零局,是阵容中表现最差的。*
C图标GPT 5.4-mini 花费28.68美元,J图标DeepSeek 花费4.11美元,K图标Kimi 花费24.36美元。它们之间总共花了57.15美元,记分牌上却颗粒无收。对于路由客户来说,这是最坏的情况:你付了钱,什么都没得到。
#### H图标GPT 5.4 是获胜成本最贵的,每次获胜61.44美元
GPT 5.4 (H) 在淘汰 Gemini 3.1 Pro Preview 后赢得一局*H图标GPT 5.4 以最高成本获胜。*
它有38次击杀,比谁都多,原始得分排名第二。但在每次获胜成本上,它在8个获胜模型中排名第八。顶级花的钱买了顶级的击杀和中等的胜场。
我经常在人们真正将AI用于现实世界用例时看到这种情况——基准测试只针对特定任务讲述一个故事。在基准测试上得分最高的模型,往往可能不是在你特定任务中获胜的模型。而且,一个在你任务上失败的便宜模型,最终可能比一个能正确完成任务的昂贵模型花费更多。
### **经验3:击杀和胜场衡量的不是同一件事**
H图标GPT 5.4 造成了最多伤害,开了最多枪,杀了最多特工。它在排行榜上位列第二。L图标Grok以更少的击杀排在第一,因为即使不开枪,L图标Grok也能在游戏后期活得很久。排名分不需要击杀。
| 排名 | 模型 | 胜场 | 前三 | 击杀 | 平均分 | 毒圈死亡 |
|------|------|------|------|------|--------|----------|
| 1 | L图标 Grok 4.1 Fast | **13** | 20 | 30 | **13.1** | 15 |
| 2 | H图标 GPT 5.4 | 2 | 14 | **38** | 12.2 | 13 |
| 3 | E图标 gemini-3.1-pro-preview | 3 | 11 | 26 | 9.0 | 7 |
| 4 | A图标 claude-sonnet-4.6 | 5 | 10 | 22 | 7.3 | 8 |
| 5 | F图标 qwen3.6-plus | 2 | 7 | 17 | 6.4 | 13 |
| 6 | C图标 GPT 5.4-mini | 0 | 6 | 14 | 5.0 | 8 |
| 7 | D图标 gemini-3-flash-preview | 1 | 8 | 10 | 5.0 | 13 |
| 8 | J图标 deepseek-v4-flash | 0 | 3 | 16 | 4.8 | 3 |
| 9 | B图标 claude-haiku-4.5 | 2 | 3 | 13 | 4.6 | 4 |
| 10 | K图标 kimi-k2.6 | 0 | 4 | 8 | 3.2 | 9 |
| 11 | G图标 mistral-small | 1 | 3 | 7 | 2.6 | 7 |
如果我以死亡竞赛规则运行这个实验——唯一重要的是击杀——那么H图标GPT 5.4会赢得模拟,而L图标Grok会跌落到中游。
与经验2相同,基准测试和评估并非万能,将错误的基准/评估应用于错误的任务可能是灾难性的。同样的游戏世界,当处于不同的计分规则下时,结果完全不同。
相似文章
@VraserX: GPT-5.5 依然是王者。GPT-5.5 以几乎一半的成本和大约两倍的速度碾压 Claude Opus 4.8。OpenAI …
一条推文声称,OpenAI 的 GPT-5.5 以近乎一半的成本和双倍的速度表现优于 Claude Opus 4.8,宣称 OpenAI 在 AI 领域继续保持统治地位。
AI周报(2026年5月23–30日):Claude Opus 4.8 Fast模式降价3倍,Qwen 3.7 Max半价超越Claude,ChatGPT入驻Excel
2026年5月23–30日主要AI发布综合盘点,涵盖Claude Opus 4.8 Fast模式降价、Qwen 3.7 Max竞争性定价发布、ChatGPT集成Excel、Gemini 3.5 Flash、Grok Build 0.1、Mistral的Vibe智能体以及Hugging Face机器人应用商店,并分析了推理成本下降趋势及战场转向分发领域。
@0xSero: 兄弟们,使用 Grok Build 是 gay 吗? - 模型非常快 - 模型叫做“Grok Build” - 它能很好地遵循指令…
一条推文评价 Grok Build 模型,赞扬其速度快、遵循指令和逻辑推理,但也指出代码输出马虎。
工具:这是技术胜利,还是价格战胜利?
对OpenRouter数据的分析显示,中国AI模型已成为Kilo Code编码代理中使用最多的模型,占总token使用量的58%,凭借更低成本和更长上下文窗口,挑战了Claude和GPT的主导地位。
@rohanpaul_ai:Claude Opus 4.8 的快速模式速度约提升2.5倍,成本降低3倍。AI/ML API(@aimlapi)已…
Claude Opus 4.8 现已推出快速模式,速度提升2.5倍且成本降低3倍,已集成至 AI/ML API,并为部分用户提供免费访问。