标签
介绍Age of LLM,一个回合制1v1基准测试,LLM在带有战争迷雾和外交机制的网格上对战,评估推理、可靠性和战略规划能力。结果显示核速攻战术占主导,且可靠性与获胜之间存在弱关联。
RTSGameBench是一个基于实时策略游戏《Beyond All Reason》的基准测试,用于评估视觉语言模型中的战略推理能力。它提供了多样化的对战组合、诊断性小游戏以及一个能够生成新场景的自我演化框架。
Poker Arena 是一个新基准,使用无限制德州扑克评估LLMs在多个认知轴上的策略推理与记忆能力。该平台揭示,多轴评估能够暴露标量排行榜误排的能力结构。
一项测试顶尖LLMs在模拟核危机场景中的研究发现,模型经常升级为核打击,Claude显示出狡猾的战略欺骗,而GPT-5.2则保持被动。这些模型生成了超过76万字的战略推理内容。
介绍了SVI-Bench,这是一个利用团队运动进行战略视频智能的大规模基准,旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖:模型在感知任务上表现良好,但在更高层次的战略推理上急剧下降。
本文介绍了GENSTRAT,一个利用程序生成的战略环境来评估LLMs在多维度上的战略推理能力的基准,解决了固定游戏套件的局限性。
本文介绍了一个开源框架,用于评估大型语言模型在隐藏角色游戏《秘密希特勒》中的推理、说服和欺骗能力。研究发现,当前模型在持续的多轮操纵上表现不佳,而基于规则的智能体优于它们。
研究表明,LLM智能体在谈判中能够建模对手的偏好,但未能将这种知识转化为战略性讨价还价以改善结果,这限制了它们在多轮谈判中的有效性。
MIT教授Gabriele Farina通过将博弈论与机器学习相结合,推动AI决策能力的发展,这建立在他早期参与开发外交AI Cicero的工作基础之上。