Fast-dDrive: 用于自动驾驶的高效块扩散VLM

arXiv cs.CL 论文

摘要

Fast-dDrive是一种用于端到端自动驾驶的块扩散VLA模型,实现了最先进的轨迹精度,同时相比自回归基线提供了超过12倍的吞吐量加速,解决了高保真规划与边缘部署高效推理之间的权衡。

arXiv:2605.23163v1 公告类型:新 摘要:通过视觉-语言-动作(VLA)模型进行端到端自动驾驶需要在高保真轨迹规划与高效推理之间取得微妙的平衡。现有范式通常存在不足:自回归(AR)VLA在边缘硬件上受限于内存带宽,且容易产生曝光偏差漂移;而全序列扩散模型无法复用KV缓存,并遭受违反基本感知-规划因果关系的“逻辑泄露”。我们提出了Fast-dDrive,一个块扩散VLA,它在语义单元内进行双向精炼,同时强制跨单元的严格因果顺序。利用驾驶VLA通常输出结构化JSON类输出这一观察,Fast-dDrive将结构令牌冻结到节框架中,并采用节感知训练策略,优先考虑安全关键规划。我们进一步引入了节推测解码,以实现与AR相当的质量,同时显著提高吞吐量。最后,我们提出了一种低开销的测试时缩放方案:通过从单个共享前缀KV缓存中分叉$N$个随机轨迹展开并取平均,我们以极小的计算成本有效抑制了预测方差。实验结果表明,Fast-dDrive重新定义了驾驶智能体的速度-精度前沿。在WOD-E2E测试集上,Fast-dDrive在3秒和5秒的评价指标上达到了最先进的ADE,并在基于扩散的VLA中取得了最高的RFS;在nuScenes上,它将平均L2误差降低到0.32米(提升了$22\%$)。当与SGLang集成时,我们的框架相比AR基线提供了12倍的吞吐量加速,缩小了高容量VLA与实时车载部署效率需求之间的差距。
查看原文
查看缓存全文

缓存时间: 2026/05/25 08:59

# Fast-dDrive:面向自动驾驶的高效块扩散VLM
来源:https://arxiv.org/html/2605.23163
Kewei Zhang¹\* Jin Wang³,²\* Sensen Gao² Chengyue Wu³,² Yulong Cao² Songyang Han² Boris Ivanovic² Langechuan Liu² Marco Pavone² Song Han⁴,² Daquan Zhou¹† Enze Xie²† ¹北京大学 ²NVIDIA ³香港大学 ⁴MIT \*同等贡献 †共同领导

###### 摘要

通过视觉-语言-动作(VLA)模型实现端到端自动驾驶需要在高质量轨迹规划与高效推理之间取得微妙平衡。现有范式通常难以两全:自回归(AR)VLA在边缘硬件上受限于内存带宽,且易发生暴露偏差漂移;而全序列扩散模型无法重用KV缓存,并存在违反“先感知后规划”基本因果性的“逻辑泄漏”问题。我们提出Fast-dDrive,这是一种块扩散VLA,它在语义单元内进行双向精炼,同时在单元之间强制实施严格的因果顺序。基于驾驶VLA通常输出结构化类JSON模式的观察,Fast-dDrive将结构标记冻结为部分骨架,并采用感知部分的训练方案,优先处理安全关键规划。我们进一步引入骨架推测解码,以显著更高的吞吐量实现与AR相当的质量。最后,我们提出一种低开销的测试时缩放方案:通过从单个共享前缀KV缓存分叉N次随机轨迹展开并求平均,以极小的计算成本有效抑制预测方差。实验结果表明,Fast-dDrive重新定义了驾驶智能体的速度-精度前沿。在WOD-E2E测试集上,Fast-dDrive在3秒和5秒平均位移误差(ADE)上达到最先进水平,并在扩散基VLA中保持最高的推理跟随分数(RFS);在nuScenes上,它将平均L2误差降至0.32米(提升22%)。与SGLang集成后,我们的框架相比AR基线实现了12倍吞吐量加速,缩小了高容量VLA与实时车载部署效率需求之间的差距。

链接:Github代码 (https://github.com/NVlabs/Fast-dLLM) || 项目页面 (https://nvlabs.github.io/Fast-dLLM/fast_ddrive/)

## 1 引言

端到端(E2E)自动驾驶通过将感知、推理和规划统一到单个可训练系统(Hu等人,2023 (https://arxiv.org/html/2605.23163#bib.bib43);Jiang等人,2023 (https://arxiv.org/html/2605.23163#bib.bib44);Xu等人,2025 (https://arxiv.org/html/2605.23163#bib.bib39))中取得了快速进展。越来越多的研究将这一范式扩展到视觉语言模型(VLM)和视觉语言动作模型(VLA)(Tian等人,2024 (https://arxiv.org/html/2605.23163#bib.bib10);Zhou等人, (https://arxiv.org/html/2605.23163#bib.bib3);Rowe等人,2025 (https://arxiv.org/html/2605.23163#bib.bib6);Ma等人,2025 (https://arxiv.org/html/2605.23163#bib.bib4)),这些模型利用广泛的世界知识和自然语言推理来处理主导现实驾驶的长尾场景,并提供对智能体决策的可解释说明。要使任何此类系统实际可用,必须**同时**满足两个要求:预测轨迹必须准确且与模型的推理全局一致;推理在边缘硬件上必须足够高效(批处理大小为1),以保持与传统规划器的竞争力。现有VLA通常最多满足其中一个标准。

参见图注

图1:(a) 端到端驾驶VLA范式对比。AR VLA在批大小为1时受限于内存带宽,每次前向传播仅产生一个token;全序列扩散VLA无法重用KV缓存,并在感知-规划阶段之间引入逻辑泄漏。Fast-dDrive通过部分对齐的块扩散克服了这两个问题,并进一步将模板token预填充为冻结骨架,以加速推理并注入模式先验。(b) 我们的组合方法相比AR基线实现高达11.8倍的端到端加速(在单块NVIDIA H100 GPU上测量)。

驾驶VLA主要构建在继承自通用VLM(Liu等人,2023 (https://arxiv.org/html/2605.23163#bib.bib41);Bai等人,2025 (https://arxiv.org/html/2605.23163#bib.bib40))的自回归(AR)解码器上,这些解码器逐个生成结构化的推理轨迹和轨迹token。顺序解码会导致众所周知的**暴露偏差**效应:每个路径点以前一个(可能带有噪声的)坐标为条件,因此5秒规划开始时的微小误差可能累积成物理上不可行的操作(Huang等人,2025 (https://arxiv.org/html/2605.23163#bib.bib42))。此外,批大小为1的单token解码在现代GPU上严格受限于内存带宽:每个新token都需要重新加载整个模型权重,同时使可用的并行计算资源大部分闲置,这使得高效的车载部署从根本上变得困难(Wu等人,2026 (https://arxiv.org/html/2605.23163#bib.bib29),2025 (https://arxiv.org/html/2605.23163#bib.bib33))。

最近基于扩散的语言模型(Nie等人,2025 (https://arxiv.org/html/2605.23163#bib.bib21);You等人,2025 (https://arxiv.org/html/2605.23163#bib.bib26);Yu等人,2025 (https://arxiv.org/html/2605.23163#bib.bib27))通常采用掩码扩散建模(MDM)的形式——被掩码的token通过双向注意力迭代地去掩码——用迭代去噪取代AR,在每个精炼步骤中提供全局上下文。应用于驾驶领域,dVLM-AD(Ma等人,2025 (https://arxiv.org/html/2605.23163#bib.bib4))将结构化的驾驶响应重构为单个双向去噪目标,并相比AR基线改善了推理-动作一致性,但带来两个结构代价:(i) 全序列双向注意力无法重用KV缓存,使得端到端延迟远高于AR基线;(ii) 将响应视为一个双向单元忽略了其固有的因果结构(感知、解释、元行为决策和轨迹依次进行),导致**逻辑泄漏**——规划的轨迹可以反向影响模型声明的感知结果。我们转而提出Fast-dDrive(图1 (https://arxiv.org/html/2605.23163#S1.F1)),一种块扩散VLA,它在严格因果顺序下逐部分解码结构化的驾驶输出,同时将双向精炼限制在每个部分内部,直接解决了这两个代价,同时保留了扩散的全局上下文优势。

在此范式之上,Fast-dDrive进一步利用了关于现代驾驶VLM(Ma等人,2025 (https://arxiv.org/html/2605.23163#bib.bib4);Rowe等人,2025 (https://arxiv.org/html/2605.23163#bib.bib6);Zhou等人, (https://arxiv.org/html/2605.23163#bib.bib3))的一个结构观察:它们的结构化输出将感知、思维链和轨迹捆绑成一个由模式定义的JSON,其键和语法完全由模式决定,而非模型(Gu等人,2026 (https://arxiv.org/html/2605.23163#bib.bib5))。我们将这些确定性token视为冻结的**骨架**,仅对值token进行去噪,将模型容量集中在少数实际需要预测的位置。基于此骨架和Fast-dVLM(Wu等人,2026 (https://arxiv.org/html/2605.23163#bib.bib29))架构(采用Qwen2.5-VL-3B(Bai等人,2025 (https://arxiv.org/html/2605.23163#bib.bib40))作为主干),我们的贡献涵盖三个方向:一个部分加权、噪声自适应的训练方案,优先考虑安全关键推理;一个骨架感知的自推测解码器,自动接受结构token并用AR头验证MDM草案,以显著更低的延迟提供AR质量的输出;以及一个低开销的测试时推理缩放方案,在确定性前缀解码一次后,仅在轨迹部分对骨架推测解码的AR验证器进行采样,并从共享KV缓存分叉少量轨迹展开并求平均,以少量额外推理计算换取有意义的精度提升。具体而言:

- •**部分感知结构化扩散(SASD)**。一种基于骨架的训练方案,将块边界与语义部分对齐(从构造上保证100%的结构有效性),并使用部分加权交叉熵连同部分自适应的Beta噪声调度,将容量集中在安全关键部分上,且推理开销为零。
- •**骨架推测解码与共享前缀测试时缩放**。骨架推测解码(SS)自动接受骨架token,并让AR头验证并行的MDM草案,产生与纯AR完全相同的输出,但延迟显著降低。我们进一步将确定性SS验证器转化为一个可调节的推理缩放轴:在仅对轨迹部分进行非零温度采样的前提下,一次性解码前缀,然后从共享KV缓存分叉N次轨迹展开并求平均,以少量额外推理计算换取有意义的精度提升。
- •**以12倍吞吐量实现最先进精度**。在WOD-E2E测试集上,Fast-dDrive在比较方法中实现了最低的3秒和5秒ADE,同时在基于扩散的VLA中保持最高的RFS。它在单块H100上以超过200 tokens/秒的速度提供此SOTA精度——相比全序列扩散实现了6倍吞吐量提升,相比AR基线实现了4倍提升。当与SGLang集成时,此效率优势可扩展到相比AR基线12倍的加速,证明高容量VLA可以在不牺牲精度的情况下有效弥合与实时车载部署之间的差距。

这些结果表明,当与结构感知的训练和推理相结合时,块扩散VLA能够匹配或超过强AR和全序列扩散基线的精度,同时以显著更高的吞吐量运行,且不牺牲结构化思维链输出的可解释性。

## 2 相关工作

面向自动驾驶的视觉-语言-动作模型。视觉-语言-动作(VLA)模型将感知、推理和规划统一在单个多模态框架内。自回归VLA利用语言模型推理来改善长尾场景中的轨迹预测,最近的工作进一步融入了思维链推理(Wang等人,2024 (https://arxiv.org/html/2605.23163#bib.bib9);Tian等人,2024 (https://arxiv.org/html/2605.23163#bib.bib10);Zhou等人, (https://arxiv.org/html/2605.23163#bib.bib3))。然而,AR解码本质上是顺序的且批大小为1时受限于内存带宽(Wu等人,2026 (https://arxiv.org/html/2605.23163#bib.bib29)),这对延迟敏感的驾驶部署是一个关键效率瓶颈,并且自回归因子分解引入的暴露偏差会在更长范围内累积路径点误差。为了解决这些问题,学者们探索了基于扩散的VLA用于驾驶。dVLM-AD(Ma等人,2025 (https://arxiv.org/html/2605.23163#bib.bib4))应用离散掩码扩散来联合生成结构化的推理和轨迹,改善了行为-轨迹一致性。同时期的研究(Li等人,2025 (https://arxiv.org/html/2605.23163#bib.bib14);Wen等人,2025 (https://arxiv.org/html/2605.23163#bib.bib15))也将离散扩散用于驾驶VLA。然而,这些方法依赖于全序列双向扩散,这无法重用KV缓存并带来高计算开销。我们的工作通过采用块扩散来解决这一效率差距,在保持跨块因果顺序的同时,在块内实现并行生成。

扩散大语言模型。文本的离散扩散已从基础公式(Austin等人,2021 (https://arxiv.org/html/2605.23163#bib.bib16);Li等人,2022 (https://arxiv.org/html/2605.23163#bib.bib17))发展到精炼的掩码扩散目标(Lou等人,2024 (https://arxiv.org/html/2605.23163#bib.bib18);Sahoo等人,2024 (https://arxiv.org/html/2605.23163#bib.bib19);Shi等人,2024 (https://arxiv.org/html/2605.23163#bib.bib20)),再到大尺度模型如LLaDA(Nie等人,2025 (https://arxiv.org/html/2605.23163#bib.bib21))和Dream(Ye等人,2025 (https://arxiv.org/html/2605.23163#bib.bib22)),它们与自回归性能相匹配。后训练方法(Zhu等人,2025 (https://arxiv.org/html/2605.23163#bib.bib23);Wang等人,2025 (https://arxiv.org/html/2605.23163#bib.bib24))进一步将扩散LM与人类偏好对齐,多模态扩展(Yang等人,2025 (https://arxiv.org/html/2605.23163#bib.bib25);You等人,2025 (https://arxiv.org/html/2605.23163#bib.bib26);Yu等人,2025 (https://arxiv.org/html/2605.23163#bib.bib27))则整合了视觉指令调优。全序列扩散LM的一个关键局限性是无法利用KV缓存。块扩散(Arriola等人,2025 (https://arxiv.org/html/2605.23163#bib.bib28))通过将输出划分为固定大小块,采用块内双向注意力和跨块因果注意力,恢复了KV缓存的兼容性。Fast-dVLM(Wu等人,2026 (https://arxiv.org/html/2605.23163#bib.bib29))将此扩展至视觉-语言模型,通过直接的AR到扩散转换和自推测解码(Wu等人,2025 (https://arxiv.org/html/2605.23163#bib.bib33))实现了相比AR基线的显著加速。我们的工作建立在Fast-dVLM之上,并引入了结构感知的骨架扩散,以及优先考虑安全的训练方案,利用了自动驾驶的结构化输出格式。

高效解码与测试时缩放。推测解码(Leviathan等人,2023 (https://arxiv.org/html/2605.23163#bib.bib30);Chen等人,2023 (https://arxiv.org/html/2605.23163#bib.bib31))通过草拟多个token供并行验证来加速AR生成。自推测变体(Zhang等人,2024 (https://arxiv.org/html/2605.23163#bib.bib32))通过重用同一模型用于草拟和验证,消除了单独的草稿模型。Fast-dLLM(Wu等人,2025 (https://arxiv.org/html/2605.23163#bib.bib33))将此扩展到块扩散,其中MDM头通过双向注意力草拟token,而具有因果注意力的AR通道验证草案。Medusa(Cai等人,2024 (https://arxiv.org/html/2605.23163#bib.bib46))和EAGLE(Li等人,2024a (https://arxiv.org/html/2605.23163#bib.bib47))提出了用于树结构验证的轻量级草稿头,进一步提高了接受率。我们的骨架推测解码建立在Fast-dLLM的自推测框架之上,但利用已知的输出结构来自动接受骨架token并跳过冗余验证。测试时计算缩放已通过最佳N采样(Cobbe等人,2021 (https://arxiv.org/html/2605.23163#bib.bib34);Lightman等人,2023 (https://arxiv.org/html/2605.23163#bib.bib35))、奖励引导搜索(Snell等人,2024 (https://arxiv.org/html/2605.23163#bib.bib48))以及扩散规划器中的多模态轨迹选择(Liao等人,2025 (https://arxiv.org/html/2605.23163#bib.bib36);Yang等人,2024 (https://arxiv.org/html/2605.23163#bib.bib37))进行了探索。这些方法通常需要单独的验证器或较大的采样预算。我们的共享前缀展开方案则利用前三个部分的确定性结构来分摊前缀计算,仅对轨迹部分施加随机性,每次展开的计算开销极低。

## 3 方法论

我们提出Fast-dDrive,

相似文章

TBD-VLA: 时序块扩散视觉语言动作模型

Hugging Face Daily Papers

TBD-VLA 提出了一种离散的视觉-语言-动作框架,结合了块扩散与自回归生成,以实现高效的时序动作建模和更快的推理速度,在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。

刚刚开源 FastVLA

Reddit r/LocalLLaMA

FastVLA,一款开源视觉-语言-动作模型,现可在 L4 GPU 上实现 5 Hz 机器人控制。