Flash-WAM: 面向世界行动模型的模态感知蒸馏

Hugging Face Daily Papers 论文

摘要

Flash-WAM提出了一种面向世界行动模型的模态感知蒸馏方法,通过将扩散压缩为每个模态单步推理,实现了实时推理,速度提升23倍。

世界行动模型(WAMs)通过迭代扩散联合生成未来视频和机器人动作,在操作基准上取得了强劲性能,但需要数十个去噪步骤,这一成本阻碍了实时控制。步骤蒸馏已成为自然的补救措施,但现成的方法在联合视频-动作场景中会失效,因为视频和动作流使用不同的信噪比偏移噪声调度,并以显著不同的边际噪声分布进行训练,这种非对称性是单模态蒸馏方法无法适应的。我们提出了Flash-WAM,一种受一致性蒸馏启发的模态感知步骤蒸馏框架,该框架为每个模态选择一致性函数以匹配其噪声机制:针对动作流的低噪声机制采用线性梯度缩放参数化,结合视频流高噪声机制的方差保持参数化,该框架基于对一致性函数族的结构分析,该分析刻画了在一致性边界条件下可实现的梯度缩放。在LingBot-VA上实例化后,Flash-WAM将每个模态的推理压缩为单步。在RoboTwin 2.0上,这将在NVIDIA L40S上的每块延迟从8.1秒减少到348毫秒,实现了23倍加速,从而实现实时推理。Flash-WAM在模拟基准上保持了任务成功率(RoboTwin 2.0为85.5%,LIBERO为95.7%),并大幅恢复了真实世界性能(在Unitree G1人形机器人上平均为60%),而朴素的一致性蒸馏在相同步骤预算下下降到24%。
查看原文
查看缓存全文

缓存时间: 2026/06/05 06:07

论文页面 - Flash-WAM: 模态感知的世界动作模型蒸馏

来源:https://huggingface.co/papers/2606.05254

摘要

Flash-WAM 提出了一种面向世界动作模型的模态感知步蒸馏框架,通过将一致性函数适配到视频和动作流中的不同噪声区间,实现了实时推理。

世界动作模型(https://huggingface.co/papers?q=World-action%20models)(WAMs)通过迭代扩散联合生成未来视频和机器人动作,在操作基准测试中表现出色,但需要数十步去噪,这一成本阻碍了实时控制。步蒸馏(https://huggingface.co/papers?q=Step%20distillation)已成为自然的解决方案,但现成方法在联合视频-动作场景中失效,因为视频流和动作流使用不同的 SNR 偏移噪声调度(https://huggingface.co/papers?q=noise%20schedules),且在训练时具有显著不同的边际噪声分布(https://huggingface.co/papers?q=marginal%20noise%20distributions),这种非对称性是单模态蒸馏方法无法处理的。我们提出 Flash-WAM,一种受一致性蒸馏(https://huggingface.co/papers?q=consistency%20distillation)启发的模态感知(https://huggingface.co/papers?q=modality-aware)步蒸馏框架,该框架为每种模态选择与其噪声区间匹配的一致性函数(https://huggingface.co/papers?q=consistency%20function):对于动作流的低噪声区间采用线性梯度缩放参数化,对于视频流的高噪声区间采用方差保持参数化(https://huggingface.co/papers?q=variance-preserving%20parametrization),这一选择基于对一致性函数族的结构分析,该分析刻画了在一致性边界条件下可实现的梯度缩放(https://huggingface.co/papers?q=gradient%20scaling)。基于 LingBot-VA 实现,Flash-WAM 将每个模态的推理压缩为单步。在 RoboTwin 2.0(https://huggingface.co/papers?q=RoboTwin%202.0)上,这使每块延迟从 8.1 秒降至 348 毫秒(NVIDIA L40S 上),实现 23 倍加速,从而支持实时推理(https://huggingface.co/papers?q=real-time%20inference)。Flash-WAM 在仿真基准测试中保持了任务成功率(RoboTwin 2.0(https://huggingface.co/papers?q=RoboTwin%202.0)上 85.5%,LIBERO(https://huggingface.co/papers?q=LIBERO)上 95.7%),并在真实世界性能上大幅恢复(Unitree G1 人形机器人上平均 60%),而朴素的一致性蒸馏(https://huggingface.co/papers?q=consistency%20distillation)在相同步预算下降至 24%。

查看 arXiv 页面(https://arxiv.org/abs/2606.05254)| 查看 PDF(https://arxiv.org/pdf/2606.05254)| 项目页面(https://flashwam.github.io/)| 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.05254)

在您的 agent 中获取该论文:

hf papers read 2606.05254

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型(0)

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.05254 以从此页面链接。

引用此论文的数据集(0)

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.05254 以从此页面链接。

引用此论文的 Spaces(0)

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.05254 以从此页面链接。

包含此论文的收藏集(0)

没有包含此论文的收藏集

将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

何时信任想象:世界行动模型的自适应动作执行

Hugging Face Daily Papers

本文介绍了 FFDC,一种用于世界行动模型的轻量级验证器,它通过检查预测观察与实际观察之间的一致性,实现了自适应动作块大小,从而提高了机器人操作的效率和鲁棒性。

世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。

世界-动作交互模型的DAWN

Hugging Face Daily Papers

本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。