texas-holdem

#texas-holdem

言行而非推理：定位LLM智能体中的忠实度缺口

arXiv cs.AI ↗ · 2天前缓存

本文通过使用德州扑克作为受控环境，将LLM智能体中的忠实度缺口分解为推理→结论和结论→行动两个步骤。研究发现，结论→行动步骤是可靠的，而推理→结论步骤是不一致的主要来源。

0 人收藏 0 人点赞

#texas-holdem

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

DexHoldem是一个真实世界基准，用于评估具身智能体在灵巧操作任务中的表现，通过使用ShadowHand玩德州扑克来测试在闭环环境中的基元执行、感知和决策能力。

0 人收藏 0 人点赞