BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
fog-of-war
标签
Cards
List
#fog-of-war
LLM时代:迷雾战争下大语言模型推理、外交与可靠性的战略1v1基准测试
arXiv cs.AI
↗
· 2天前
缓存
介绍Age of LLM,一个回合制1v1基准测试,LLM在带有战争迷雾和外交机制的网格上对战,评估推理、可靠性和战略规划能力。结果显示核速攻战术占主导,且可靠性与获胜之间存在弱关联。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交