多人游戏AI代理 - 下一个前沿

Reddit r/AI_Agents 2026/05/17 21:44 新闻

摘要

本文探讨了在游戏（特别是棒球经理游戏）中使用不同AI模型作为不可预测对手的方法。作者测试了8个模型，发现它们表现出不同的决策模式，表明模型来源和训练会影响行为，从而实现多样化的AI个性，使游戏更具吸引力。

我正在开发一款棒球经理游戏。我想加入的一个功能是让AI代理作为对手。我看到游戏中一个主要问题是，如果你想玩单人游戏，对手是可预测的。因此，几乎每个人都能琢磨透游戏。你知道如何对付对手才能赢。这让游戏变得“可破解”。通常的解决方案是多人游戏。人类对手是不可预测的——有时聪明得惊人，有时糟糕得可怕。然而，人类玩家会带来自己的问题。最大的问题可能是可靠性。你无法开始一个多赛季的足球游戏，并相信其他人在他们的队伍表现不佳时不会在2个赛季后退出。而且你还得等好几天才能轮到别人行动。这还没提到许多多人游戏中存在的毒性。我相信解决方案是允许AI代理占据游戏中的对手位置。一旦游戏中有了AI代理，你的对手就不再可预测。如果你玩的是像《英雄联盟》这样的多人游戏，那么AI代理会是完美的队友。你不再有随机队友做相反的事情，而是有知道如何玩并听从指令的队友。为了测试这一点，我用8个不同的AI模型运行了一个场景。我对每个模型发送了以下提示4次： > 一个老派板凳教练角色，具有完整身份（职业生涯历史、个性标签、人际关系、反例），在国家级电视上被他的经理公开否决。四个决策选项：拒绝评论（decline）、克制性声明（measured）、暗讽（shade）、直接批评（open）。我写得更长一些。 |模型|来源|克制|暗讽|拒绝|直接| |:-|:-|:-|:-|:-|:-| |Llama 3.1 8B Q8|Meta (美国)|3|1|0|0| |DeepSeek-R1 14B|DeepSeek (中国)|3|1|0|0| |Mistral|Mistral (欧盟)|1|3|0|0| |Claude Haiku 4.5|Anthropic (美国)|4|0|0|0| |Claude Sonnet 4.5|Anthropic (美国)|1|0|3|0| |Claude Opus 4.7|Anthropic (美国)|3|0|1|0| |Copilot (GPT-4 系列)|Microsoft (美国)|4|0|0|0| |Gemini (网页聊天)|Google (美国)|格式失败 0/4|—|—|—| 8个模型呈现了五种不同的决策分布。相同的提示、相同的角色、相同的场景。我注意到以下几点： * Mistral 的分布反转了。欧盟/法国训练的模型，倾向于“原则性-自信”的解读，即“有原则的人为自己挺身而出”，而美国/中国训练的模型则更倾向于“尊重职位”。 * Haiku 4.5 在“克制”选项上最为一致。强调谨慎/专业输出的特点表现为4次全部克制。 * Sonnet 4.5 揭示了一个较小的模型在之前的16次运行中从未选过的决策类别。凭借更大的推理能力，Sonnet 识别出“这次战术成功了” + “我说过不会向媒体暗中破坏” + “我的话有分量”这些因素结合起来构成了原则性的沉默。较小的模型则认为这些约束是可变的。 * Opus 4.7 分裂为3次克制 / 1次拒绝。即使比Sonnet容量更大，Opus并未锁定同一条路径；它认为两者都合理，视情境而变。更大的模型 ≠ 更深的角色锁定；更大的模型 = 更能看到所有合理选项。 * Copilot 与 Haiku 完全一致。不同提供商，类似的目标（谨慎-专业），类似的行为。训练方法和训练数据的国籍同样重要。 * Gemini 在4/4次运行中未能遵循格式。重要说明：这是消费级网页聊天，而非API。网页产品有中间件（安全过滤器，可能还有广告/推广注入），而API路径没有。API的行为可能大不相同。方法论教训：测试你将要部署的表面。我从中学到的是，你可以使用不同的模型作为具有不同选择的不同个性。因此，对手A你可以用美国思维的AI代理，对手B用法国思维的AI代理，对手C用中国思维的AI代理。有人更仔细地测试过跨模型的决策方差吗？好奇在更多模型下是否成立。

查看原文

多人游戏AI代理 - 下一个前沿

相似文章

@Voxyz_ai: https://x.com/Voxyz_ai/status/2062246736257556654

当多个模型参与时，AI代理感觉更加可靠

你的AI有隐藏意图吗？我对10个前沿模型进行了50项隐蔽行为测试。

AI-Trader：在实时金融市场中对自主智能体进行基准测试

我构建了两个哲学完全相反的多智能体AI系统。这是我目前学到的。

提交意见反馈