RLDX-1 技术报告
摘要
RLDX-1 是一种用于灵巧操作的多功能机器人策略,采用多流动作 Transformer(Multi-Stream Action Transformer)架构来整合异构模态,在现实世界任务中超越了现有的 VLA 模型。
查看缓存全文
缓存时间: 2026/05/08 08:10
论文页面 - RLDX-1 技术报告
来源:https://huggingface.co/papers/2605.03269 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
RLDX-1 是一种用于灵巧操作的通用机器人策略,它通过多流动作 Transformer(Multi-Stream Action Transformer)架构整合异构模态,与现有的视觉-语言-动作模型相比,在复杂的现实世界任务中表现出更优越的性能。
虽然视觉-语言-动作模型(https://huggingface.co/papers?q=Vision-Language-Action%20models)(VLAs)通过继承预训练视觉-语言模型的多样化智能(即广泛的场景理解和语言条件泛化能力),在实现类人通用机器人策略方面取得了显著进展,但它们仍然难以应对需要更广泛功能能力(例如运动感知、基于记忆的决策和物理感知)的复杂现实世界任务(https://huggingface.co/papers?q=real-world%20tasks)。为了解决这个问题,我们推出了 RLDX-1,这是一种基于多流动作 Transformer(https://huggingface.co/papers?q=Multi-Stream%20Action%20Transformer)(MSAT)构建的用于灵巧操作(https://huggingface.co/papers?q=dexterous%20manipulation)的通用机器人策略。MSAT 是一种通过模态特定流与跨模态联合自注意力(https://huggingface.co/papers?q=cross-modal%20joint%20self-attention)整合异构模态,从而统一这些能力的架构。RLDX-1 进一步将该架构与系统级设计选择相结合,包括为罕见的操作场景合成训练数据、专门针对类人操作的学习程序,以及用于实时部署(https://huggingface.co/papers?q=real-time%20deployment)的推理优化。通过实证评估,我们表明 RLDX-1 在模拟基准测试(https://huggingface.co/papers?q=simulation%20benchmarks)和需要超越通用多功能性的广泛功能能力的现实世界任务(https://huggingface.co/papers?q=real-world%20tasks)中,始终优于近期前沿的 VLA 模型(例如 π_{0.5} 和 GR00T N1.6)。特别是,RLDX-1 在 ALLEX 人形机器人任务中展现出优势,成功率达到 86.8%,而 π_{0.5} 和 GR00T N1.6 的成功率约为 40%,这突显了 RLDX-1 在多样化功能需求下控制高自由度人形机器人(https://huggingface.co/papers?q=humanoid%20robot)的能力。总之,这些结果使 RLDX-1 成为迈向可靠的、用于复杂、接触丰富且动态的现实世界灵巧操作(https://huggingface.co/papers?q=dexterous%20manipulation)VLA 模型的重要一步。
查看 arXiv 页面 (https://arxiv.org/abs/2605.03269) 查看 PDF (https://arxiv.org/pdf/2605.03269) 项目页面 (http://rlwrld.ai/rldx-1) GitHub77 (https://github.com/RLWRLD/RLDX-1) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.03269)
在您的智能体中获取这篇论文:
hf papers read 2605\.03269
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型9
RLWRLD/RLDX-1-PT Robotics• 7B• 2天前更新 • 52 • 3 (https://huggingface.co/RLWRLD/RLDX-1-PT)
RLWRLD/RLDX-1-FT-ROBOCASA Robotics• 7B• 2天前更新 • 51 • 1 (https://huggingface.co/RLWRLD/RLDX-1-FT-ROBOCASA)
RLWRLD/RLDX-1-MT-ALLEX Robotics• 8B• 2天前更新 • 55 • 1 (https://huggingface.co/RLWRLD/RLDX-1-MT-ALLEX)
RLWRLD/RLDX-1-FT-SIMPLER-WIDOWX Robotics• 7B• 2天前更新 • 29 • 1 (https://huggingface.co/RLWRLD/RLDX-1-FT-SIMPLER-WIDOWX)
浏览引用此论文的 9 个模型 (https://huggingface.co/models?other=arxiv:2605.03269)## 引用此论文的数据集0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.03269 以从此页面进行链接。
引用此论文的 Spaces0
没有链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.03269 以从此页面进行链接。
包含此论文的合集6
浏览包含此论文的 6 个合集 (https://huggingface.co/collections?paper=2605.03269)
相似文章
学习灵巧性
OpenAI 宣布推出 Dactyl,这是一个通过模拟和强化学习来学习机器人手灵巧性的系统,使用 LSTM 来在不同物理环境中泛化,并通过 Rapid PPO 实现来训练能够迁移到现实世界操纵任务的策略。
HiVLA: 一种以视觉接地为中心的分层具身操作系统
HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。
RoboLab:用于任务通用策略分析的高保真仿真基准
# 论文页面 - RoboLab:用于任务通用策略分析的高保真仿真基准 来源:[https://huggingface.co/papers/2604.09860](https://huggingface.co/papers/2604.09860) ## 摘要 RoboLab 是一个仿真基准框架,通过可扩展的真实任务生成和对策略在受控扰动下行为的系统分析,解决机器人策略评估中的局限。
多目标强化学习:具有挑战性的机器人环境与研究建议
OpenAI 推出了一套具有挑战性的多目标强化学习任务,使用 Fetch 和 Shadow Dexterous Hand 硬件,集成到 OpenAI Gym 中,并提出了改进强化学习算法的研究方向。
EasyVideoR1:让视频理解的强化学习更简单
# 论文页面 - EasyVideoR1:让视频理解的强化学习更简单 来源:[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架,可提升训练吞吐量,支持多种视频任务,并实现图像-视频联合训练,在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers