多人游戏AI代理 - 下一个前沿

Reddit r/AI_Agents 新闻

摘要

本文探讨了在游戏(特别是棒球经理游戏)中使用不同AI模型作为不可预测对手的方法。作者测试了8个模型,发现它们表现出不同的决策模式,表明模型来源和训练会影响行为,从而实现多样化的AI个性,使游戏更具吸引力。

我正在开发一款棒球经理游戏。我想加入的一个功能是让AI代理作为对手。我看到游戏中一个主要问题是,如果你想玩单人游戏,对手是可预测的。因此,几乎每个人都能琢磨透游戏。你知道如何对付对手才能赢。这让游戏变得“可破解”。通常的解决方案是多人游戏。人类对手是不可预测的——有时聪明得惊人,有时糟糕得可怕。然而,人类玩家会带来自己的问题。最大的问题可能是可靠性。你无法开始一个多赛季的足球游戏,并相信其他人在他们的队伍表现不佳时不会在2个赛季后退出。而且你还得等好几天才能轮到别人行动。这还没提到许多多人游戏中存在的毒性。我相信解决方案是允许AI代理占据游戏中的对手位置。一旦游戏中有了AI代理,你的对手就不再可预测。如果你玩的是像《英雄联盟》这样的多人游戏,那么AI代理会是完美的队友。你不再有随机队友做相反的事情,而是有知道如何玩并听从指令的队友。 为了测试这一点,我用8个不同的AI模型运行了一个场景。我对每个模型发送了以下提示4次: > 一个老派板凳教练角色,具有完整身份(职业生涯历史、个性标签、人际关系、反例),在国家级电视上被他的经理公开否决。四个决策选项:拒绝评论(decline)、克制性声明(measured)、暗讽(shade)、直接批评(open)。我写得更长一些。 |模型|来源|克制|暗讽|拒绝|直接| |:-|:-|:-|:-|:-|:-| |Llama 3.1 8B Q8|Meta (美国)|3|1|0|0| |DeepSeek-R1 14B|DeepSeek (中国)|3|1|0|0| |Mistral|Mistral (欧盟)|1|3|0|0| |Claude Haiku 4.5|Anthropic (美国)|4|0|0|0| |Claude Sonnet 4.5|Anthropic (美国)|1|0|3|0| |Claude Opus 4.7|Anthropic (美国)|3|0|1|0| |Copilot (GPT-4 系列)|Microsoft (美国)|4|0|0|0| |Gemini (网页聊天)|Google (美国)|格式失败 0/4|—|—|—| 8个模型呈现了五种不同的决策分布。相同的提示、相同的角色、相同的场景。我注意到以下几点: * Mistral 的分布反转了。欧盟/法国训练的模型,倾向于“原则性-自信”的解读,即“有原则的人为自己挺身而出”,而美国/中国训练的模型则更倾向于“尊重职位”。 * Haiku 4.5 在“克制”选项上最为一致。强调谨慎/专业输出的特点表现为4次全部克制。 * Sonnet 4.5 揭示了一个较小的模型在之前的16次运行中从未选过的决策类别。凭借更大的推理能力,Sonnet 识别出“这次战术成功了” + “我说过不会向媒体暗中破坏” + “我的话有分量”这些因素结合起来构成了原则性的沉默。较小的模型则认为这些约束是可变的。 * Opus 4.7 分裂为3次克制 / 1次拒绝。即使比Sonnet容量更大,Opus并未锁定同一条路径;它认为两者都合理,视情境而变。更大的模型 ≠ 更深的角色锁定;更大的模型 = 更能看到所有合理选项。 * Copilot 与 Haiku 完全一致。不同提供商,类似的目标(谨慎-专业),类似的行为。训练方法和训练数据的国籍同样重要。 * Gemini 在4/4次运行中未能遵循格式。重要说明:这是消费级网页聊天,而非API。网页产品有中间件(安全过滤器,可能还有广告/推广注入),而API路径没有。API的行为可能大不相同。方法论教训:测试你将要部署的表面。 我从中学到的是,你可以使用不同的模型作为具有不同选择的不同个性。因此,对手A你可以用美国思维的AI代理,对手B用法国思维的AI代理,对手C用中国思维的AI代理。有人更仔细地测试过跨模型的决策方差吗?好奇在更多模型下是否成立。
查看原文

相似文章

@Voxyz_ai: https://x.com/Voxyz_ai/status/2062246736257556654

X AI KOLs Timeline

本文详细介绍了如何构建用于投资研究的多智能体AI团队,使用了像TradingAgents和Bloome平台这样的开源项目。它强调,有效智能体协作的关键在于组织架构,而非模型智能。

AI-Trader:在实时金融市场中对自主智能体进行基准测试

Papers with Code Trending

本文介绍了 AI-Trader,这是首个用于评估大语言模型(LLMs)在美股、A股和加密货币等金融决策方面的全自动实时基准测试平台。研究指出,通用智能并不必然保证交易成功,并强调了在自主智能体中风险控制的重要性。