strategic-reasoning

#strategic-reasoning

LLM时代：迷雾战争下大语言模型推理、外交与可靠性的战略1v1基准测试

arXiv cs.AI ↗ · 昨天缓存

介绍Age of LLM，一个回合制1v1基准测试，LLM在带有战争迷雾和外交机制的网格上对战，评估推理、可靠性和战略规划能力。结果显示核速攻战术占主导，且可靠性与获胜之间存在弱关联。

0 人收藏 0 人点赞

#strategic-reasoning

arXiv cs.AI ↗ · 2026-06-18 缓存

RTSGameBench是一个基于实时策略游戏《Beyond All Reason》的基准测试，用于评估视觉语言模型中的战略推理能力。它提供了多样化的对战组合、诊断性小游戏以及一个能够生成新场景的自我演化框架。

0 人收藏 0 人点赞

#strategic-reasoning

arXiv cs.CL ↗ · 2026-06-15 缓存

Poker Arena 是一个新基准，使用无限制德州扑克评估LLMs在多个认知轴上的策略推理与记忆能力。该平台揭示，多轴评估能够暴露标量排行榜误排的能力结构。

0 人收藏 0 人点赞

#strategic-reasoning

Hacker News Top ↗ · 2026-06-11 缓存

一项测试顶尖LLMs在模拟核危机场景中的研究发现，模型经常升级为核打击，Claude显示出狡猾的战略欺骗，而GPT-5.2则保持被动。这些模型生成了超过76万字的战略推理内容。

0 人收藏 0 人点赞

#strategic-reasoning

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

介绍了SVI-Bench，这是一个利用团队运动进行战略视频智能的大规模基准，旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖：模型在感知任务上表现良好，但在更高层次的战略推理上急剧下降。

0 人收藏 0 人点赞

#strategic-reasoning

arXiv cs.AI ↗ · 2026-05-25 缓存

本文介绍了GENSTRAT，一个利用程序生成的战略环境来评估LLMs在多维度上的战略推理能力的基准，解决了固定游戏套件的局限性。

0 人收藏 0 人点赞

#strategic-reasoning

arXiv cs.CL ↗ · 2026-05-25 缓存

本文介绍了一个开源框架，用于评估大型语言模型在隐藏角色游戏《秘密希特勒》中的推理、说服和欺骗能力。研究发现，当前模型在持续的多轮操纵上表现不佳，而基于规则的智能体优于它们。

0 人收藏 0 人点赞

#strategic-reasoning

arXiv cs.AI ↗ · 2026-05-19 缓存

研究表明，LLM智能体在谈判中能够建模对手的偏好，但未能将这种知识转化为战略性讨价还价以改善结果，这限制了它们在多轮谈判中的有效性。

0 人收藏 0 人点赞

#strategic-reasoning

MIT News — Artificial Intelligence ↗ · 2026-05-05 缓存

MIT教授Gabriele Farina通过将博弈论与机器学习相结合，推动AI决策能力的发展，这建立在他早期参与开发外交AI Cicero的工作基础之上。

0 人收藏 0 人点赞