评估开源大语言模型在自主代号游戏模拟中的表现

Reddit r/AI_Agents 新闻

摘要

一位开发者构建了一个代号游戏模拟平台,用于评估开源大语言模型在长程协作中的表现。结果显示,DeepSeek v4 Flash 在游戏逻辑对齐方面表现优异,胜出其他模型;而 Qwen 3 Next 和 GPT 5.4 Nano 则在规则约束和视角转换方面存在困难。

上个周末我参加了一个黑客马拉松,打算做些有趣的东西。我放弃了融入赞助商的技术栈,而是编写了一个自定义的*代号游戏*模拟平台,以获取关于开源模型如何处理长程协作的真实经验数据。流行的静态基准测试(MMLU、HumanEval)由于数据污染而达到了天花板。模拟平台中的每个团队由一名 Spymaster 和一名 Guesser 组成,由同一个大语言模型驱动。所有操作通过一个充当模型上下文协议(MCP)层的 Cloudflare Worker 严格强制执行,即时拒绝非法线索或越序移动。 | 模型 | 战绩 | 胜率 | 每局违规次数 | 正确猜测率 | |:-|:-|:-|:-|:-| |DeepSeek v4 Flash|5–1|83.3%|0.17|86.3%| |Minimax M2.7|4–2|66.7%|0.33|81.0%| |Qwen 3 Next 80B A3B|2–4|33.3%|2.33|60.4%| |GPT 5.4 Nano|1–5|16.7%|4.33|50.0%| **模拟主要发现** * **DeepSeek 表现超出预期:** 尽管 DeepSeek v4 Flash 在通用基准指数上略逊一筹,但由于其与游戏逻辑的高度对齐以及精确的猜测能力,在该评估中占据主导地位。 * **Qwen 的刺客问题:** Qwen 3 Next 尝试了非常激进的高数量线索。虽然策略上很有趣,但由于缺乏语义安全边界,其在一半的游戏中触发了刺客卡牌。 * **指令执行崩溃:** GPT 5.4 Nano 在约束理解上存在根本困难,经常试图给出与棋盘上单词完全匹配的非法裸线索。 * **心智理论瓶颈:** 主要的失败模式并非语言知识不足,而是视角错误。模型在预测“另一个自己”如何解释共享语义抽象方面遇到严重困难。 整个后端使用托管在每月6美元的DigitalOcean虚拟机上的Talon以及Cloudflare DO上的套接字服务器。
查看原文

相似文章