RLDX-1 技术报告

Hugging Face Daily Papers 论文

摘要

RLDX-1 是一种用于灵巧操作的多功能机器人策略,采用多流动作 Transformer(Multi-Stream Action Transformer)架构来整合异构模态,在现实世界任务中超越了现有的 VLA 模型。

虽然视觉-语言-动作模型(VLAs)通过继承预训练视觉-语言模型的通用智能(即广泛的场景理解和基于语言条件的泛化能力),在实现类似人类的多功能机器人策略方面取得了显著进展,但它们仍难以应对需要更广泛功能能力(例如运动感知、记忆感知决策和物理感知)的复杂现实世界任务。为此,我们推出了 RLDX-1,这是一种用于灵巧操作的多功能机器人策略,基于多流动作 Transformer(MSAT)构建。该架构通过具有跨模态联合自注意力机制的模态特定流来整合异构模态,从而统一了这些能力。RLDX-1 进一步将该架构与系统级设计选择相结合,包括为稀有操作场景合成训练数据、针对类人操作优化的学习过程,以及用于实时部署的推理优化。通过实证评估,我们证明 RLDX-1 在仿真基准测试和需要超越通用多样性的广泛功能能力的现实世界任务中,始终优于近期的前沿 VLA 模型(例如 π_{0.5} 和 GR00T N1.6)。特别是,在 ALLEX 人形机器人任务中,RLDX-1 展现了优越性,其成功率达到 86.8%,而 π_{0.5} 和 GR00T N1.6 的成功率约为 40%,这突显了 RLDX-1 在多样化功能需求下控制高自由度人形机器人的能力。综上所述,这些结果表明 RLDX-1 是迈向适用于复杂、富接触且动态的现实世界灵巧操作的可靠 VLA 的重要一步。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:10

论文页面 - RLDX-1 技术报告

来源:https://huggingface.co/papers/2605.03269 作者:

摘要

RLDX-1 是一种用于灵巧操作的通用机器人策略,它通过多流动作 Transformer(Multi-Stream Action Transformer)架构整合异构模态,与现有的视觉-语言-动作模型相比,在复杂的现实世界任务中表现出更优越的性能。

虽然视觉-语言-动作模型(https://huggingface.co/papers?q=Vision-Language-Action%20models)(VLAs)通过继承预训练视觉-语言模型的多样化智能(即广泛的场景理解和语言条件泛化能力),在实现类人通用机器人策略方面取得了显著进展,但它们仍然难以应对需要更广泛功能能力(例如运动感知、基于记忆的决策和物理感知)的复杂现实世界任务(https://huggingface.co/papers?q=real-world%20tasks)。为了解决这个问题,我们推出了 RLDX-1,这是一种基于多流动作 Transformer(https://huggingface.co/papers?q=Multi-Stream%20Action%20Transformer)(MSAT)构建的用于灵巧操作(https://huggingface.co/papers?q=dexterous%20manipulation)的通用机器人策略。MSAT 是一种通过模态特定流与跨模态联合自注意力(https://huggingface.co/papers?q=cross-modal%20joint%20self-attention)整合异构模态,从而统一这些能力的架构。RLDX-1 进一步将该架构与系统级设计选择相结合,包括为罕见的操作场景合成训练数据、专门针对类人操作的学习程序,以及用于实时部署(https://huggingface.co/papers?q=real-time%20deployment)的推理优化。通过实证评估,我们表明 RLDX-1 在模拟基准测试(https://huggingface.co/papers?q=simulation%20benchmarks)和需要超越通用多功能性的广泛功能能力的现实世界任务(https://huggingface.co/papers?q=real-world%20tasks)中,始终优于近期前沿的 VLA 模型(例如 π_{0.5} 和 GR00T N1.6)。特别是,RLDX-1 在 ALLEX 人形机器人任务中展现出优势,成功率达到 86.8%,而 π_{0.5} 和 GR00T N1.6 的成功率约为 40%,这突显了 RLDX-1 在多样化功能需求下控制高自由度人形机器人(https://huggingface.co/papers?q=humanoid%20robot)的能力。总之,这些结果使 RLDX-1 成为迈向可靠的、用于复杂、接触丰富且动态的现实世界灵巧操作(https://huggingface.co/papers?q=dexterous%20manipulation)VLA 模型的重要一步。

查看 arXiv 页面 (https://arxiv.org/abs/2605.03269) 查看 PDF (https://arxiv.org/pdf/2605.03269) 项目页面 (http://rlwrld.ai/rldx-1) GitHub77 (https://github.com/RLWRLD/RLDX-1) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.03269)

在您的智能体中获取这篇论文:

hf papers read 2605\.03269

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型9

RLWRLD/RLDX-1-PT Robotics• 7B• 2天前更新 • 52 • 3 (https://huggingface.co/RLWRLD/RLDX-1-PT)

RLWRLD/RLDX-1-FT-ROBOCASA Robotics• 7B• 2天前更新 • 51 • 1 (https://huggingface.co/RLWRLD/RLDX-1-FT-ROBOCASA)

RLWRLD/RLDX-1-MT-ALLEX Robotics• 8B• 2天前更新 • 55 • 1 (https://huggingface.co/RLWRLD/RLDX-1-MT-ALLEX)

RLWRLD/RLDX-1-FT-SIMPLER-WIDOWX Robotics• 7B• 2天前更新 • 29 • 1 (https://huggingface.co/RLWRLD/RLDX-1-FT-SIMPLER-WIDOWX)

浏览引用此论文的 9 个模型 (https://huggingface.co/models?other=arxiv:2605.03269)## 引用此论文的数据集0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.03269 以从此页面进行链接。

引用此论文的 Spaces0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.03269 以从此页面进行链接。

包含此论文的合集6

浏览包含此论文的 6 个合集 (https://huggingface.co/collections?paper=2605.03269)

相似文章

学习灵巧性

OpenAI Blog

OpenAI 宣布推出 Dactyl,这是一个通过模拟和强化学习来学习机器人手灵巧性的系统,使用 LSTM 来在不同物理环境中泛化,并通过 Rapid PPO 实现来训练能够迁移到现实世界操纵任务的策略。

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers

HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。

RoboLab:用于任务通用策略分析的高保真仿真基准

Hugging Face Daily Papers

# 论文页面 - RoboLab:用于任务通用策略分析的高保真仿真基准 来源:[https://huggingface.co/papers/2604.09860](https://huggingface.co/papers/2604.09860) ## 摘要 RoboLab 是一个仿真基准框架,通过可扩展的真实任务生成和对策略在受控扰动下行为的系统分析,解决机器人策略评估中的局限。

EasyVideoR1:让视频理解的强化学习更简单

Hugging Face Daily Papers

# 论文页面 - EasyVideoR1:让视频理解的强化学习更简单 来源:[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架,可提升训练吞吐量,支持多种视频任务,并实现图像-视频联合训练,在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers