Flash-WAM: 面向世界行动模型的模态感知蒸馏

Hugging Face Daily Papers 2026/06/03 00:00 论文

摘要

Flash-WAM提出了一种面向世界行动模型的模态感知蒸馏方法，通过将扩散压缩为每个模态单步推理，实现了实时推理，速度提升23倍。

世界行动模型（WAMs）通过迭代扩散联合生成未来视频和机器人动作，在操作基准上取得了强劲性能，但需要数十个去噪步骤，这一成本阻碍了实时控制。步骤蒸馏已成为自然的补救措施，但现成的方法在联合视频-动作场景中会失效，因为视频和动作流使用不同的信噪比偏移噪声调度，并以显著不同的边际噪声分布进行训练，这种非对称性是单模态蒸馏方法无法适应的。我们提出了Flash-WAM，一种受一致性蒸馏启发的模态感知步骤蒸馏框架，该框架为每个模态选择一致性函数以匹配其噪声机制：针对动作流的低噪声机制采用线性梯度缩放参数化，结合视频流高噪声机制的方差保持参数化，该框架基于对一致性函数族的结构分析，该分析刻画了在一致性边界条件下可实现的梯度缩放。在LingBot-VA上实例化后，Flash-WAM将每个模态的推理压缩为单步。在RoboTwin 2.0上，这将在NVIDIA L40S上的每块延迟从8.1秒减少到348毫秒，实现了23倍加速，从而实现实时推理。Flash-WAM在模拟基准上保持了任务成功率（RoboTwin 2.0为85.5%，LIBERO为95.7%），并大幅恢复了真实世界性能（在Unitree G1人形机器人上平均为60%），而朴素的一致性蒸馏在相同步骤预算下下降到24%。

查看原文

查看缓存全文

缓存时间: 2026/06/05 06:07

论文页面 - Flash-WAM: 模态感知的世界动作模型蒸馏

来源：https://huggingface.co/papers/2606.05254

摘要

Flash-WAM 提出了一种面向世界动作模型的模态感知步蒸馏框架，通过将一致性函数适配到视频和动作流中的不同噪声区间，实现了实时推理。

世界动作模型（https://huggingface.co/papers?q=World-action%20models）（WAMs）通过迭代扩散联合生成未来视频和机器人动作，在操作基准测试中表现出色，但需要数十步去噪，这一成本阻碍了实时控制。步蒸馏（https://huggingface.co/papers?q=Step%20distillation）已成为自然的解决方案，但现成方法在联合视频-动作场景中失效，因为视频流和动作流使用不同的 SNR 偏移噪声调度（https://huggingface.co/papers?q=noise%20schedules），且在训练时具有显著不同的边际噪声分布（https://huggingface.co/papers?q=marginal%20noise%20distributions），这种非对称性是单模态蒸馏方法无法处理的。我们提出 Flash-WAM，一种受一致性蒸馏（https://huggingface.co/papers?q=consistency%20distillation）启发的模态感知（https://huggingface.co/papers?q=modality-aware）步蒸馏框架，该框架为每种模态选择与其噪声区间匹配的一致性函数（https://huggingface.co/papers?q=consistency%20function）：对于动作流的低噪声区间采用线性梯度缩放参数化，对于视频流的高噪声区间采用方差保持参数化（https://huggingface.co/papers?q=variance-preserving%20parametrization），这一选择基于对一致性函数族的结构分析，该分析刻画了在一致性边界条件下可实现的梯度缩放（https://huggingface.co/papers?q=gradient%20scaling）。基于 LingBot-VA 实现，Flash-WAM 将每个模态的推理压缩为单步。在 RoboTwin 2.0（https://huggingface.co/papers?q=RoboTwin%202.0）上，这使每块延迟从 8.1 秒降至 348 毫秒（NVIDIA L40S 上），实现 23 倍加速，从而支持实时推理（https://huggingface.co/papers?q=real-time%20inference）。Flash-WAM 在仿真基准测试中保持了任务成功率（RoboTwin 2.0（https://huggingface.co/papers?q=RoboTwin%202.0）上 85.5%，LIBERO（https://huggingface.co/papers?q=LIBERO）上 95.7%），并在真实世界性能上大幅恢复（Unitree G1 人形机器人上平均 60%），而朴素的一致性蒸馏（https://huggingface.co/papers?q=consistency%20distillation）在相同步预算下降至 24%。

查看 arXiv 页面（https://arxiv.org/abs/2606.05254）| 查看 PDF（https://arxiv.org/pdf/2606.05254）| 项目页面（https://flashwam.github.io/）| 添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.05254）

在您的 agent 中获取该论文：

hf papers read 2606.05254

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型（0）

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.05254 以从此页面链接。

引用此论文的数据集（0）

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.05254 以从此页面链接。

引用此论文的 Spaces（0）

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.05254 以从此页面链接。

包含此论文的收藏集（0）

没有包含此论文的收藏集

将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

Flash-WAM: 面向世界行动模型的模态感知蒸馏

论文页面 - Flash-WAM: 模态感知的世界动作模型蒸馏

摘要

引用此论文的模型（0）

引用此论文的数据集（0）

引用此论文的 Spaces（0）

包含此论文的收藏集（0）

相似文章

Light-WAM：基于状态融合动作解码的高效世界动作模型

Discrete-WAM：面向世界-策略学习的统一离散视觉-动作令牌编辑

AHA-WAM：异步视野自适应世界动作建模与观测引导上下文路由

DWM: 在潜在世界模型中分离世界效应与动作

ImageWAM：世界动作模型真的需要视频生成，还是只需要图像编辑？

提交意见反馈