评估开源大语言模型在自主代号游戏模拟中的表现

Reddit r/AI_Agents 2026/06/02 15:22 新闻

open-source llm-evaluation codenames collaboration simulation benchmarks autonomous-agents

摘要

一位开发者构建了一个代号游戏模拟平台，用于评估开源大语言模型在长程协作中的表现。结果显示，DeepSeek v4 Flash 在游戏逻辑对齐方面表现优异，胜出其他模型；而 Qwen 3 Next 和 GPT 5.4 Nano 则在规则约束和视角转换方面存在困难。

上个周末我参加了一个黑客马拉松，打算做些有趣的东西。我放弃了融入赞助商的技术栈，而是编写了一个自定义的*代号游戏*模拟平台，以获取关于开源模型如何处理长程协作的真实经验数据。流行的静态基准测试（MMLU、HumanEval）由于数据污染而达到了天花板。模拟平台中的每个团队由一名 Spymaster 和一名 Guesser 组成，由同一个大语言模型驱动。所有操作通过一个充当模型上下文协议（MCP）层的 Cloudflare Worker 严格强制执行，即时拒绝非法线索或越序移动。 | 模型 | 战绩 | 胜率 | 每局违规次数 | 正确猜测率 | |:-|:-|:-|:-|:-| |DeepSeek v4 Flash|5–1|83.3%|0.17|86.3%| |Minimax M2.7|4–2|66.7%|0.33|81.0%| |Qwen 3 Next 80B A3B|2–4|33.3%|2.33|60.4%| |GPT 5.4 Nano|1–5|16.7%|4.33|50.0%| **模拟主要发现** * **DeepSeek 表现超出预期：** 尽管 DeepSeek v4 Flash 在通用基准指数上略逊一筹，但由于其与游戏逻辑的高度对齐以及精确的猜测能力，在该评估中占据主导地位。 * **Qwen 的刺客问题：** Qwen 3 Next 尝试了非常激进的高数量线索。虽然策略上很有趣，但由于缺乏语义安全边界，其在一半的游戏中触发了刺客卡牌。 * **指令执行崩溃：** GPT 5.4 Nano 在约束理解上存在根本困难，经常试图给出与棋盘上单词完全匹配的非法裸线索。 * **心智理论瓶颈：** 主要的失败模式并非语言知识不足，而是视角错误。模型在预测“另一个自己”如何解释共享语义抽象方面遇到严重困难。整个后端使用托管在每月6美元的DigitalOcean虚拟机上的Talon以及Cloudflare DO上的套接字服务器。

查看原文

评估开源大语言模型在自主代号游戏模拟中的表现

相似文章

实测 OpenCode 与自托管 LLM 的协作：Qwen 3.5、3.6、Gemma 4、Nemotron 3、GLM-4.7 Flash - v2

我构建了一个1v1核战略游戏来基准测试LLM推理（而不仅仅是选择题）——Age of LLM

我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法，但事实并非如此。

@kapicode: 我一直在使用 Claude 作为“人类”来提示 @opencode 以重建参考项目，在同一测试平台上评估了四款 LLM…

自我对弈帮助AI在围棋中达到超人类水平，那么为何对LLM未能如此？研究人员找到了解决方案。

提交意见反馈