D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架

arXiv cs.AI 2026/05/14 04:00 论文

摘要

D-VLA 提出了一种高并发分布式异步强化学习框架，用于视觉-语言-动作模型，采用平面解耦和泳道管线提升大规模具身智能训练中的吞吐量和效率。

arXiv:2605.13276v1 公告类型：新摘要：具身智能的快速发展使得视觉-语言-动作（VLA）模型在多模态感知和任务执行中表现出色。然而，将这些模型在大型分布式环境中应用强化学习（RL）面临着严峻的系统瓶颈，这主要是由于高保真物理模拟与深度学习对显存/带宽的巨大需求之间存在资源冲突。这种冲突常常使得整体吞吐量因执行阶段的低效率而受限。为解决这些挑战，我们提出了 D-VLA，一个用于大规模具身基座模型的高并发、低延迟分布式强化学习框架。D-VLA 引入了“平面解耦”，将高频训练数据与低频权重控制物理隔离，以消除仿真与优化之间的干扰。我们进一步设计了一个四线程异步“泳道”管线，使得采样、推理、梯度计算和参数分布能够完全并行重叠。此外，双池显存管理模型和拓扑感知复制解决了内存碎片问题，并优化了通信效率。在 LIBERO 等基准上的实验表明，D-VLA 在十亿参数级 VLA 模型的吞吐量和采样效率方面显著优于主流强化学习框架。在万亿参数级可扩展性测试中，我们的框架保持了卓越的稳定性和线性加速，为高性能通用具身智能体提供了鲁棒的系统。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/14 06:15

# D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架
Source: https://arxiv.org/html/2605.13276
Yucheng Guo5, Yongjian Guo1,511footnotemark:1, Zhong Guan3,511footnotemark:1, Wen Huang1,511footnotemark:1, Haoran Sun2,511footnotemark:1, Haodong Yue1, Xiaolong Xiang4,5, Shuai Di5, Zhen Sun4,5, Luqiao Wang4,5, Junwu Xiong5, Yicheng Gong5 1清华大学, 2北京大学, 3天津大学, 4北京航空航天大学, 5JDT AI Infra

###### 摘要

具身AI的快速发展使得视觉-语言-动作(VLA)模型在多模态感知和任务执行方面表现出色。然而，将这些大模型在分布式大规模环境中应用强化学习面临着严重的系统瓶颈，主要源于高保真物理仿真与深度学习对显存/带宽的密集需求之间的资源冲突。这种冲突常常导致整体吞吐量受执行阶段低效的制约。为解决这些挑战，我们提出 D-VLA，一种面向大规模具身基础模型的高并发、低延迟分布式强化学习框架。D-VLA 引入“平面解耦”思想，物理上将高频训练数据与低频权重控制隔离，以消除仿真与优化之间的干扰。我们还设计了一个四线程异步“泳道”流水线，实现采样、推理、梯度计算和参数分发完全并行重叠。此外，一种双池显存管理模型和拓扑感知复制机制解决了内存碎片问题并优化了通信效率。在 LIBERO 等基准测试上的实验表明，D-VLA 在十亿参数 VLA 模型的吞吐量和采样效率上显著超越主流强化学习框架。在万亿参数可扩展性测试中，我们的框架保持了出色的稳定性和线性加速，为高性能通用具身智能体提供了稳健的系统支持。

## 1 引言

参见标题图 1：不同训练框架下的放置策略

具身AI被视为通向通用人工智能的关键路径，正经历着由视觉-语言-动作(VLA)模型 Zitkovich 等(2023)；Black 等(2024)；Gemini Robotics Team (2025)；Kim 等(2024)；Shukor 等(2025) 等引发的深刻变革，例如 OpenVLA、π₀ 和 GR00T。这些模型通过将视觉感知、语言理解和动作生成整合到统一的端到端框架中，实现了从人工设计的显式模型到数据驱动的隐式模型的重大转变。通过在海量计算资源和数据集上持续扩展，VLA 模型在跨任务和跨形态适应方面展现出前所未有的潜力。然而，尽管取得了显著进步，当前训练范式仍然严重依赖基于监督微调(SFT)的模仿学习。现有的框架如 LeRobot 和 GR00T 主要利用专家示教数据通过行为克隆对策略进行微调。这种以SFT为中心的路径在实际应用中面临多重严峻挑战：首先，大规模人工收集的机器人轨迹数据成本高昂且难以获取，严格限制了模型的扩展；其次，处理高维数据和复杂的多模态架构给训练周期和推理延迟带来沉重负担。此外，受限于离线数据集多样性的不足，SFT 模型在面对分布偏移和未见任务时通常表现出较弱的泛化能力。与人类学习机制不同，SFT 无法支持智能体通过自主探索发现超越示教数据的新动作模式。因此，研究界正越来越多地转向强化学习框架，通过在线交互突破这些限制。

针对 SFT 的不足，已有多个强化学习框架涌现，优化了训练流程的不同维度。例如，RLinf 提供了一个通用的分布式训练和评估接口，为多模态智能体和 VLA 提供统一框架。RL-VLA3 实现了三阶段异步流水线，将数据收集、策略推理和模型更新解耦，从而最大化硬件利用率和训练吞吐量。SimpleVLA-RL 针对 VLA 模型设计了基于规则的奖励和交互式轨迹采样，证明即使使用极少量示教数据也能超越 SFT 性能。此外，Dexbotix 专注于集成触觉反馈的高自由度灵巧手，而 Vlab 则致力于构建专用的仿真到现实迁移环境。

与传统的在线强化学习不同，具身AI训练涉及高保真物理仿真与大规模深度学习模型之间的深度耦合。前者对计算资源具有高频、碎片化占用特点，后者则对 GPU 显存容量和通信带宽有极高的吞吐需求。现有分布式训练框架如 RLinf-VLA 和 RL-VLA3 引入了混合资源分配和细粒度异步机制以减轻计算压力。然而，它们仍未从根本上解决底层架构上仿真任务与模型优化之间的资源争用和执行冲突。结果，整体系统吞吐量仍受限于最慢的物理步进或同步开销。

当前具身强化学习系统的性能瓶颈主要源于执行层面仿真逻辑与学习逻辑的高度耦合。一方面，物理引擎频繁的内存分配与释放易在深度学习框架中造成严重的内存碎片；另一方面，大规模多模态环境数据（如高分辨率图像）在采样与推理组件之间的频繁传输引入了显著的序列化开销和通信延迟。这种系统性的“阻塞”效应在处理长序列交互任务时尤为严重，限制了智能体在复杂场景中的样本获取效率。

为解决这些挑战，我们提出 D-VLA，一种高性能分布式具身强化学习框架。该框架的核心创新在于“平面解耦”的设计理念，在训练过程中物理上将高频数据平面与低频权重控制平面隔离，从根源上消除仿真与训练任务之间的干扰。基于这一概念，我们构建了一个四线程异步执行流水线 ——“泳道”模型。通过并行化采样、权重接收、梯度训练和参数分发，实现了计算与通信的完全重叠。为进一步优化异构资源利用，D-VLA 引入了双池内存管理模型和零拷贝数据交换机制，支持多种灵活的放置策略，包括共置、分离和混合部署，如图1所示。通过将群体相对策略优化(GRPO)与局部拓扑复制缩放技术相结合，D-VLA 成功突破了大规模交互数据处理的扩展瓶颈，为超大规模 VLA 模型的训练提供了稳定支持。

本文的主要贡献总结如下：

- •**“平面解耦”与四线程异步流水线架构**：我们提出了一种系统设计，将高频数据交互平面与低频权重控制平面物理隔离。通过创新的四线程“泳道”并行机制，实现了数据采样、策略推理、梯度训练和参数分发的完全计算重叠，从架构层面解决了具身仿真与模型优化之间的资源冲突。
- •**分层内存管理及拓扑感知扩展策略**：我们引入了双池 GPU 内存管理模型和零拷贝数据交换机制，有效缓解了物理引擎引起的内存碎片。同时，通过局部拓扑复制和控制平面卸载技术，显著降低了跨节点通信延迟，并在保持全局一致性的前提下优化了万亿参数模型的通信-计算比。
- •**大规模具身任务中的性能突破与验证**：通过将 GRPO 算法集成到 D-VLA 框架中，并在 LIBERO 等复杂基准上进行了广泛验证，我们证明了该系统在处理长序列、大规模交互数据时具有优越的稳定性和采样效率，显著超越了现有主流分布式强化学习基线。

## 2 相关工作

#### 视觉-语言-动作模型的演进

在具身AI领域，视觉-语言-动作(VLA)模型正经历着从基础监督微调(SFT)向具有更强泛化能力的强化学习框架的范式转变。早期的 VLA 基础模型如 RT-2、OpenVLA 和 π₀ 通过在 Open-X Embodiment 等大规模数据集上训练，实现了初步的机器人操作能力。随后，π₀.5 和 SmolVLA 等模型在保持性能的同时进一步优化了参数效率和推理速度。同时，通用人形控制模型如 Gr00t N1.5 展示了广阔的应用前景。然而，由于 SFT 方法在处理分布外数据时的局限性，研究焦点正逐渐转向利用强化学习在 ManiSkill 和 LIBERO 等复杂基准上实现持续的动态环境适应。

#### VLA 训练与优化框架

为支持大规模 VLA 的高效训练，学术界开发了一系列从底层控制到高层学习的优化框架。LeRobot 和 DexBotix 等框架为端到端学习提供了垂直整合的工具链，覆盖从数据处理到策略微调的全过程（如 ACT 和扩散策略）。早期尝试如 SimpleVLA-RL 和 RLinf-VLA 试图将大语言模型中的 RLHF 流程迁移到具身任务中。然而，物理模拟器引入的高延迟导致同步训练流水线面临严重的吞吐瓶颈。为此，RL-VLA3 提出了一种完全异步的分布式架构，将仿真、推理和训练过程解耦。通过借鉴 veRL、OpenRLHF 和 ROLLART 等大语言模型训练系统的设计理念，显著提升了硬件利用率和策略优化的训练效率。

#### 具身AI中的系统挑战

具身AI系统在训练过程中面临着与传统语言模型不同的系统级挑战，主要源于物理模拟器内在的不确定性。与大语言模型训练中相对稳定的神经奖励模型不同，VLA 训练需要频繁调用 RoboCasa 等仿真环境。这些环境在 CPU 和 GPU 资源消耗上表现出高波动性，容易导致计算空闲和资源浪费。为解决这些痛点，前沿研究如 RL-VLA3 引入了动态批调度和细粒度任务分区分片技术，旨在解决模拟器引起的异步瓶颈，同时最大化采样效率和系统吞吐量。

## 3 D-VLA 系统设计

参见标题图 2：D-VLA 框架：异步具身强化学习训练架构概览。GPU 池分为 rollout workers 和 actor workers。Rollout GPU 将 PhysX 加速的并行环境与冻结的推理策略副本共置，消除了进程间观测传输和模型卸载开销。完成固定步长 rollout epoch 后，轨迹数据通过 NCCL 发送到 actor GPU。

相似文章

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers

HiVLA 提出了一种分层视觉-语言-动作框架，通过使用扩散变换器动作专家将语义规划与运动控制解耦，从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家，在长周期任务和细粒度操作方面尤其优于端到端基线。

刚刚开源 FastVLA

Reddit r/LocalLLaMA

FastVLA，一款开源视觉-语言-动作模型，现可在 L4 GPU 上实现 5 Hz 机器人控制。

OneVL：基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划来源：[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者：, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架，通过整合语言和 v

CollabVR：基于视觉语言模型与视频生成模型的协作式视频推理

Hugging Face Daily Papers

CollabVR 是一篇研究论文，提出了一种闭环框架，该框架通过协作整合视觉语言模型与视频生成模型，以改善视觉推理并实时纠正推理失败。

EasyVideoR1：让视频理解的强化学习更简单

Hugging Face Daily Papers

# 论文页面 - EasyVideoR1：让视频理解的强化学习更简单来源：[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架，可提升训练吞吐量，支持多种视频任务，并实现图像-视频联合训练，在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers

相似文章

HiVLA: 一种以视觉接地为中心的分层具身操作系统

刚刚开源 FastVLA

OneVL：基于视觉语言解释的单步隐式推理与规划

CollabVR：基于视觉语言模型与视频生成模型的协作式视频推理

EasyVideoR1：让视频理解的强化学习更简单

提交意见反馈