texas-holdem

标签

Cards List
#texas-holdem

言行而非推理:定位LLM智能体中的忠实度缺口

arXiv cs.AI · 2天前 缓存

本文通过使用德州扑克作为受控环境,将LLM智能体中的忠实度缺口分解为推理→结论和结论→行动两个步骤。研究发现,结论→行动步骤是可靠的,而推理→结论步骤是不一致的主要来源。

0 人收藏 0 人点赞
#texas-holdem

DexHoldem: 使用灵巧具身系统玩德州扑克

Hugging Face Daily Papers · 2026-05-18 缓存

DexHoldem是一个真实世界基准,用于评估具身智能体在灵巧操作任务中的表现,通过使用ShadowHand玩德州扑克来测试在闭环环境中的基元执行、感知和决策能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈