fog-of-war

#fog-of-war

LLM时代：迷雾战争下大语言模型推理、外交与可靠性的战略1v1基准测试

arXiv cs.AI ↗ · 2天前缓存

介绍Age of LLM，一个回合制1v1基准测试，LLM在带有战争迷雾和外交机制的网格上对战，评估推理、可靠性和战略规划能力。结果显示核速攻战术占主导，且可靠性与获胜之间存在弱关联。

0 人收藏 0 人点赞