DexHoldem: 使用灵巧具身系统玩德州扑克

Hugging Face Daily Papers 论文

摘要

DexHoldem是一个真实世界基准,用于评估具身智能体在灵巧操作任务中的表现,通过使用ShadowHand玩德州扑克来测试在闭环环境中的基元执行、感知和决策能力。

在真实灵巧硬件上评估具身系统不仅仅需要孤立的基元技能:智能体必须感知变化的桌面场景,选择适合上下文的动作,用灵巧手执行该动作,并使场景可被后续决策所用。我们提出DexHoldem,这是一个基于ShadowHand玩德州扑克灵巧操作的真实世界系统级基准。DexHoldem提供了14个德州扑克操作基元的1,470个遥操作演示、一个标准化的物理策略基准以及一个智能体感知基准,用于测试智能体是否能恢复具身决策所需的结构化游戏状态。在基元执行方面,π_{0.5}获得了最高的任务完成率(61.2%),而π_{0.5}和π_0在场景保持成功率上持平(47.5%)。在智能体感知方面,Opus 4.7获得了最佳严格问题级准确率(34.3%),而GPT 5.5获得了最佳平均字段级准确率(66.8%),这暴露了孤立的视觉子能力与完整路由相关状态恢复之间的差距。最后,我们在三个案例研究中实例化了完整的具身智能体循环,其中等待、恢复调度、人类帮助请求以及重复基元执行揭示了感知和策略错误在闭环部署中如何累积。因此,DexHoldem在共享物理设置中评估了灵巧桌面执行、智能体感知和具身决策路由。项目页面:https://dexholdem.github.io/Dexholdem/。
查看原文
查看缓存全文

缓存时间: 2026/05/19 22:34

论文页面 - DexHoldem: 使用灵巧具身系统进行德州扑克

来源:https://huggingface.co/papers/2605.18727

摘要

DexHoldem 提出了一个用于评估具身智能体在灵巧操作任务中的真实世界基准,同时测试了基础执行能力和更高层次的感知与决策能力。

在真实灵巧硬件上评估具身系统,需要的不仅仅是孤立的基础技能:智能体必须感知不断变化的桌面场景,选择符合上下文的动作,用灵巧手执行该动作,并让场景保持可用状态以便后续决策。我们提出了 DexHoldem,这是一个围绕德州扑克灵巧操作与 ShadowHand 构建的真实世界系统级基准。DexHoldem 提供了 1,470 个跨 14 种德州扑克操作原语的遥操作演示、一个标准化的物理策略基准,以及一个智能感知基准——用于测试智能体是否能够恢复具身决策所需的结构化游戏状态。在基础执行方面,π_{0.5} 获得了最高的任务完成率(61.2%),而 π_{0.5} 和 π_0 在场景保持成功率(47.5%)上持平。在智能感知方面,Opus 4.7 取得了最佳严格问题级准确率(34.3%),而 GPT 5.5 取得了最佳平均字段准确率(66.8%),这暴露了孤立视觉子能力与完整路由相关状态恢复之间的差距。最后,我们在三个案例研究中实例化了完整的具身智能体循环,其中等待、恢复调度、人类帮助请求以及重复的原语执行揭示了在闭环部署中感知和策略误差如何累积。因此,DexHoldem 在共享物理环境中评估了灵巧桌面执行、智能感知以及具身决策路由。项目页面:https://dexholdem.github.io/Dexholdem/。

查看 arXiv 页面(https://arxiv.org/abs/2605.18727)查看 PDF(https://arxiv.org/pdf/2605.18727)项目页面(https://dexholdem.github.io/Dexholdem/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18727)

在你的智能体中获取这篇论文:

hf papers read 2605.18727

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.18727 即可从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.18727 即可从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.18727 即可从此页面链接。

包含此论文的收藏集 0

没有包含此论文的收藏集

将这篇论文添加到一个收藏集(https://huggingface.co/new-collection)中即可从此页面链接。

相似文章

学习灵巧性

OpenAI Blog

OpenAI 宣布推出 Dactyl,这是一个通过模拟和强化学习来学习机器人手灵巧性的系统,使用 LSTM 来在不同物理环境中泛化,并通过 Rapid PPO 实现来训练能够迁移到现实世界操纵任务的策略。

ASH:通过具身学习自我打磨的智能体

arXiv cs.AI

ASH是一个通过自改进循环利用逆动力学模型从未标注的互联网视频中学习具身策略的系统,在宝可梦和塞尔达游戏中的长时域任务上取得了强大性能。