评估开源大语言模型在自主代号游戏模拟中的表现
摘要
一位开发者构建了一个代号游戏模拟平台,用于评估开源大语言模型在长程协作中的表现。结果显示,DeepSeek v4 Flash 在游戏逻辑对齐方面表现优异,胜出其他模型;而 Qwen 3 Next 和 GPT 5.4 Nano 则在规则约束和视角转换方面存在困难。
上个周末我参加了一个黑客马拉松,打算做些有趣的东西。我放弃了融入赞助商的技术栈,而是编写了一个自定义的*代号游戏*模拟平台,以获取关于开源模型如何处理长程协作的真实经验数据。流行的静态基准测试(MMLU、HumanEval)由于数据污染而达到了天花板。模拟平台中的每个团队由一名 Spymaster 和一名 Guesser 组成,由同一个大语言模型驱动。所有操作通过一个充当模型上下文协议(MCP)层的 Cloudflare Worker 严格强制执行,即时拒绝非法线索或越序移动。
| 模型 | 战绩 | 胜率 | 每局违规次数 | 正确猜测率 |
|:-|:-|:-|:-|:-|
|DeepSeek v4 Flash|5–1|83.3%|0.17|86.3%|
|Minimax M2.7|4–2|66.7%|0.33|81.0%|
|Qwen 3 Next 80B A3B|2–4|33.3%|2.33|60.4%|
|GPT 5.4 Nano|1–5|16.7%|4.33|50.0%|
**模拟主要发现**
* **DeepSeek 表现超出预期:** 尽管 DeepSeek v4 Flash 在通用基准指数上略逊一筹,但由于其与游戏逻辑的高度对齐以及精确的猜测能力,在该评估中占据主导地位。
* **Qwen 的刺客问题:** Qwen 3 Next 尝试了非常激进的高数量线索。虽然策略上很有趣,但由于缺乏语义安全边界,其在一半的游戏中触发了刺客卡牌。
* **指令执行崩溃:** GPT 5.4 Nano 在约束理解上存在根本困难,经常试图给出与棋盘上单词完全匹配的非法裸线索。
* **心智理论瓶颈:** 主要的失败模式并非语言知识不足,而是视角错误。模型在预测“另一个自己”如何解释共享语义抽象方面遇到严重困难。
整个后端使用托管在每月6美元的DigitalOcean虚拟机上的Talon以及Cloudflare DO上的套接字服务器。
相似文章
实测 OpenCode 与自托管 LLM 的协作:Qwen 3.5、3.6、Gemma 4、Nemotron 3、GLM-4.7 Flash - v2
一位开发者在 RTX 4080 上用 OpenCode 对多款自托管 LLM(Qwen 3.5/3.6、Gemma 4、Nemotron 3、GLM-4.7)进行两项编码任务基准测试,揭示了速度与质量的权衡。
我构建了一个1v1核战略游戏来基准测试LLM推理(而不仅仅是选择题)——Age of LLM
名为Age of LLM的新型开源基准通过回合制核战略游戏(包含战争迷雾、外交和虚张声势)来测试LLM推理,相较于传统的多项选择基准,提供了更动态的评估。
我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法,但事实并非如此。
一项基准研究表明,使用 LLM 分析整个代码库具有成本效益。DeepSeek V4 Flash 因其低成本以及与 Claude Opus 等高端选项相当的准确率,被确定为最佳默认模型。
@kapicode: 我一直在使用 Claude 作为“人类”来提示 @opencode 以重建参考项目,在同一测试平台上评估了四款 LLM…
一项针对四款大语言模型(Qwen、MiniMax、GLM)的评估显示,当使用 Claude 作为 Opencode 智能体工具的提示器时,一个较小的本地模型(运行在 3090 显卡上的 Qwen 27B)在代码质量与可靠性方面表现优于更大的剪枝模型。
自我对弈帮助AI在围棋中达到超人类水平,那么为何对LLM未能如此?研究人员找到了解决方案。
研究人员引入了自导自对弈(Self-Guided Self-Play, SGS),这是一种用于LLM的自我对弈算法,通过使用指引角色(Guide)对合成问题进行评分来防止奖励作弊(reward hacking)。应用于Lean4中的定理证明时,SGS超越了强化学习基线,并使7B模型胜过671B模型。