RLDX-1 技术报告

Hugging Face Daily Papers 2026/05/05 00:00 论文

摘要

RLDX-1 是一种用于灵巧操作的多功能机器人策略，采用多流动作 Transformer（Multi-Stream Action Transformer）架构来整合异构模态，在现实世界任务中超越了现有的 VLA 模型。

虽然视觉-语言-动作模型（VLAs）通过继承预训练视觉-语言模型的通用智能（即广泛的场景理解和基于语言条件的泛化能力），在实现类似人类的多功能机器人策略方面取得了显著进展，但它们仍难以应对需要更广泛功能能力（例如运动感知、记忆感知决策和物理感知）的复杂现实世界任务。为此，我们推出了 RLDX-1，这是一种用于灵巧操作的多功能机器人策略，基于多流动作 Transformer（MSAT）构建。该架构通过具有跨模态联合自注意力机制的模态特定流来整合异构模态，从而统一了这些能力。RLDX-1 进一步将该架构与系统级设计选择相结合，包括为稀有操作场景合成训练数据、针对类人操作优化的学习过程，以及用于实时部署的推理优化。通过实证评估，我们证明 RLDX-1 在仿真基准测试和需要超越通用多样性的广泛功能能力的现实世界任务中，始终优于近期的前沿 VLA 模型（例如 π_{0.5} 和 GR00T N1.6）。特别是，在 ALLEX 人形机器人任务中，RLDX-1 展现了优越性，其成功率达到 86.8%，而 π_{0.5} 和 GR00T N1.6 的成功率约为 40%，这突显了 RLDX-1 在多样化功能需求下控制高自由度人形机器人的能力。综上所述，这些结果表明 RLDX-1 是迈向适用于复杂、富接触且动态的现实世界灵巧操作的可靠 VLA 的重要一步。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 08:10

论文页面 - RLDX-1 技术报告

来源：https://huggingface.co/papers/2605.03269 作者：

，

摘要

RLDX-1 是一种用于灵巧操作的通用机器人策略，它通过多流动作 Transformer（Multi-Stream Action Transformer）架构整合异构模态，与现有的视觉-语言-动作模型相比，在复杂的现实世界任务中表现出更优越的性能。

虽然视觉-语言-动作模型（https://huggingface.co/papers?q=Vision-Language-Action%20models）（VLAs）通过继承预训练视觉-语言模型的多样化智能（即广泛的场景理解和语言条件泛化能力），在实现类人通用机器人策略方面取得了显著进展，但它们仍然难以应对需要更广泛功能能力（例如运动感知、基于记忆的决策和物理感知）的复杂现实世界任务（https://huggingface.co/papers?q=real-world%20tasks）。为了解决这个问题，我们推出了 RLDX-1，这是一种基于多流动作 Transformer（https://huggingface.co/papers?q=Multi-Stream%20Action%20Transformer）（MSAT）构建的用于灵巧操作（https://huggingface.co/papers?q=dexterous%20manipulation）的通用机器人策略。MSAT 是一种通过模态特定流与跨模态联合自注意力（https://huggingface.co/papers?q=cross-modal%20joint%20self-attention）整合异构模态，从而统一这些能力的架构。RLDX-1 进一步将该架构与系统级设计选择相结合，包括为罕见的操作场景合成训练数据、专门针对类人操作的学习程序，以及用于实时部署（https://huggingface.co/papers?q=real-time%20deployment）的推理优化。通过实证评估，我们表明 RLDX-1 在模拟基准测试（https://huggingface.co/papers?q=simulation%20benchmarks）和需要超越通用多功能性的广泛功能能力的现实世界任务（https://huggingface.co/papers?q=real-world%20tasks）中，始终优于近期前沿的 VLA 模型（例如 π_{0.5} 和 GR00T N1.6）。特别是，RLDX-1 在 ALLEX 人形机器人任务中展现出优势，成功率达到 86.8%，而 π_{0.5} 和 GR00T N1.6 的成功率约为 40%，这突显了 RLDX-1 在多样化功能需求下控制高自由度人形机器人（https://huggingface.co/papers?q=humanoid%20robot）的能力。总之，这些结果使 RLDX-1 成为迈向可靠的、用于复杂、接触丰富且动态的现实世界灵巧操作（https://huggingface.co/papers?q=dexterous%20manipulation）VLA 模型的重要一步。

查看 arXiv 页面 (https://arxiv.org/abs/2605.03269) 查看 PDF (https://arxiv.org/pdf/2605.03269) 项目页面 (http://rlwrld.ai/rldx-1) GitHub77 (https://github.com/RLWRLD/RLDX-1) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.03269)

在您的智能体中获取这篇论文：

hf papers read 2605\.03269

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型9

RLWRLD/RLDX-1-PT Robotics• 7B• 2天前更新 • 52 • 3 (https://huggingface.co/RLWRLD/RLDX-1-PT)

RLWRLD/RLDX-1-FT-ROBOCASA Robotics• 7B• 2天前更新 • 51 • 1 (https://huggingface.co/RLWRLD/RLDX-1-FT-ROBOCASA)

RLWRLD/RLDX-1-MT-ALLEX Robotics• 8B• 2天前更新 • 55 • 1 (https://huggingface.co/RLWRLD/RLDX-1-MT-ALLEX)

RLWRLD/RLDX-1-FT-SIMPLER-WIDOWX Robotics• 7B• 2天前更新 • 29 • 1 (https://huggingface.co/RLWRLD/RLDX-1-FT-SIMPLER-WIDOWX)

浏览引用此论文的 9 个模型 (https://huggingface.co/models?other=arxiv:2605.03269)## 引用此论文的数据集0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.03269 以从此页面进行链接。

引用此论文的 Spaces0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.03269 以从此页面进行链接。

包含此论文的合集6

浏览包含此论文的 6 个合集 (https://huggingface.co/collections?paper=2605.03269)

RLDX-1 技术报告

论文页面 - RLDX-1 技术报告

摘要

引用此论文的模型9

RLWRLD/RLDX-1-PT Robotics• 7B• 2天前更新 • 52 • 3 (https://huggingface.co/RLWRLD/RLDX-1-PT)

RLWRLD/RLDX-1-FT-ROBOCASA Robotics• 7B• 2天前更新 • 51 • 1 (https://huggingface.co/RLWRLD/RLDX-1-FT-ROBOCASA)

RLWRLD/RLDX-1-MT-ALLEX Robotics• 8B• 2天前更新 • 55 • 1 (https://huggingface.co/RLWRLD/RLDX-1-MT-ALLEX)

RLWRLD/RLDX-1-FT-SIMPLER-WIDOWX Robotics• 7B• 2天前更新 • 29 • 1 (https://huggingface.co/RLWRLD/RLDX-1-FT-SIMPLER-WIDOWX)

引用此论文的 Spaces0

包含此论文的合集6

相似文章

学习灵巧性

HiVLA: 一种以视觉接地为中心的分层具身操作系统

RoboLab：用于任务通用策略分析的高保真仿真基准

多目标强化学习：具有挑战性的机器人环境与研究建议

EasyVideoR1：让视频理解的强化学习更简单

提交意见反馈