DexHoldem: 使用灵巧具身系统玩德州扑克
摘要
DexHoldem是一个真实世界基准,用于评估具身智能体在灵巧操作任务中的表现,通过使用ShadowHand玩德州扑克来测试在闭环环境中的基元执行、感知和决策能力。
查看缓存全文
缓存时间: 2026/05/19 22:34
论文页面 - DexHoldem: 使用灵巧具身系统进行德州扑克
来源:https://huggingface.co/papers/2605.18727
摘要
DexHoldem 提出了一个用于评估具身智能体在灵巧操作任务中的真实世界基准,同时测试了基础执行能力和更高层次的感知与决策能力。
在真实灵巧硬件上评估具身系统,需要的不仅仅是孤立的基础技能:智能体必须感知不断变化的桌面场景,选择符合上下文的动作,用灵巧手执行该动作,并让场景保持可用状态以便后续决策。我们提出了 DexHoldem,这是一个围绕德州扑克灵巧操作与 ShadowHand 构建的真实世界系统级基准。DexHoldem 提供了 1,470 个跨 14 种德州扑克操作原语的遥操作演示、一个标准化的物理策略基准,以及一个智能感知基准——用于测试智能体是否能够恢复具身决策所需的结构化游戏状态。在基础执行方面,π_{0.5} 获得了最高的任务完成率(61.2%),而 π_{0.5} 和 π_0 在场景保持成功率(47.5%)上持平。在智能感知方面,Opus 4.7 取得了最佳严格问题级准确率(34.3%),而 GPT 5.5 取得了最佳平均字段准确率(66.8%),这暴露了孤立视觉子能力与完整路由相关状态恢复之间的差距。最后,我们在三个案例研究中实例化了完整的具身智能体循环,其中等待、恢复调度、人类帮助请求以及重复的原语执行揭示了在闭环部署中感知和策略误差如何累积。因此,DexHoldem 在共享物理环境中评估了灵巧桌面执行、智能感知以及具身决策路由。项目页面:https://dexholdem.github.io/Dexholdem/。
查看 arXiv 页面(https://arxiv.org/abs/2605.18727)查看 PDF(https://arxiv.org/pdf/2605.18727)项目页面(https://dexholdem.github.io/Dexholdem/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18727)
在你的智能体中获取这篇论文:
hf papers read 2605.18727
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.18727 即可从此页面链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.18727 即可从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.18727 即可从此页面链接。
包含此论文的收藏集 0
没有包含此论文的收藏集
将这篇论文添加到一个收藏集(https://huggingface.co/new-collection)中即可从此页面链接。
相似文章
DexJoCo: 面向任务的灵巧操作在MuJoCo上的基准测试与工具包
DexJoCo 提出了一个面向任务的灵巧操作在 MuJoCo 中的基准测试与工具包,包含11个功能性任务、一个低成本数据采集系统,以及全面评估,揭示了当前灵巧操作策略的局限性。
DeVI:基于物理的灵巧人-物交互,通过合成视频模仿实现
DeVI 提出一种框架,借助混合 3D-2D 跟踪奖励,将文本驱动的合成视频转化为具备物理可信度的灵巧机器人控制,实现对未见物体的零样本泛化。
学习灵巧性
OpenAI 宣布推出 Dactyl,这是一个通过模拟和强化学习来学习机器人手灵巧性的系统,使用 LSTM 来在不同物理环境中泛化,并通过 Rapid PPO 实现来训练能够迁移到现实世界操纵任务的策略。
ASH:通过具身学习自我打磨的智能体
ASH是一个通过自改进循环利用逆动力学模型从未标注的互联网视频中学习具身策略的系统,在宝可梦和塞尔达游戏中的长时域任务上取得了强大性能。
我让LLM们玩德州扑克。最小的模型因为太笨不会弃牌而击败了约1T参数的模型
一个让六个LLM玩德州扑克的实验;一个1.2B的小模型凭借其激进的“永不弃牌”策略赢了两次,凸显了特定格式如何偏向简单模型。作者构建了名为Hive的扑克引擎和智能体框架,并邀请社区反馈。