fog-of-war

标签

Cards List
#fog-of-war

LLM时代:迷雾战争下大语言模型推理、外交与可靠性的战略1v1基准测试

arXiv cs.AI · 2天前 缓存

介绍Age of LLM,一个回合制1v1基准测试,LLM在带有战争迷雾和外交机制的网格上对战,评估推理、可靠性和战略规划能力。结果显示核速攻战术占主导,且可靠性与获胜之间存在弱关联。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈