Flash-WAM: 面向世界行动模型的模态感知蒸馏
摘要
Flash-WAM提出了一种面向世界行动模型的模态感知蒸馏方法,通过将扩散压缩为每个模态单步推理,实现了实时推理,速度提升23倍。
查看缓存全文
缓存时间: 2026/06/05 06:07
论文页面 - Flash-WAM: 模态感知的世界动作模型蒸馏
来源:https://huggingface.co/papers/2606.05254
摘要
Flash-WAM 提出了一种面向世界动作模型的模态感知步蒸馏框架,通过将一致性函数适配到视频和动作流中的不同噪声区间,实现了实时推理。
世界动作模型(https://huggingface.co/papers?q=World-action%20models)(WAMs)通过迭代扩散联合生成未来视频和机器人动作,在操作基准测试中表现出色,但需要数十步去噪,这一成本阻碍了实时控制。步蒸馏(https://huggingface.co/papers?q=Step%20distillation)已成为自然的解决方案,但现成方法在联合视频-动作场景中失效,因为视频流和动作流使用不同的 SNR 偏移噪声调度(https://huggingface.co/papers?q=noise%20schedules),且在训练时具有显著不同的边际噪声分布(https://huggingface.co/papers?q=marginal%20noise%20distributions),这种非对称性是单模态蒸馏方法无法处理的。我们提出 Flash-WAM,一种受一致性蒸馏(https://huggingface.co/papers?q=consistency%20distillation)启发的模态感知(https://huggingface.co/papers?q=modality-aware)步蒸馏框架,该框架为每种模态选择与其噪声区间匹配的一致性函数(https://huggingface.co/papers?q=consistency%20function):对于动作流的低噪声区间采用线性梯度缩放参数化,对于视频流的高噪声区间采用方差保持参数化(https://huggingface.co/papers?q=variance-preserving%20parametrization),这一选择基于对一致性函数族的结构分析,该分析刻画了在一致性边界条件下可实现的梯度缩放(https://huggingface.co/papers?q=gradient%20scaling)。基于 LingBot-VA 实现,Flash-WAM 将每个模态的推理压缩为单步。在 RoboTwin 2.0(https://huggingface.co/papers?q=RoboTwin%202.0)上,这使每块延迟从 8.1 秒降至 348 毫秒(NVIDIA L40S 上),实现 23 倍加速,从而支持实时推理(https://huggingface.co/papers?q=real-time%20inference)。Flash-WAM 在仿真基准测试中保持了任务成功率(RoboTwin 2.0(https://huggingface.co/papers?q=RoboTwin%202.0)上 85.5%,LIBERO(https://huggingface.co/papers?q=LIBERO)上 95.7%),并在真实世界性能上大幅恢复(Unitree G1 人形机器人上平均 60%),而朴素的一致性蒸馏(https://huggingface.co/papers?q=consistency%20distillation)在相同步预算下降至 24%。
查看 arXiv 页面(https://arxiv.org/abs/2606.05254)| 查看 PDF(https://arxiv.org/pdf/2606.05254)| 项目页面(https://flashwam.github.io/)| 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.05254)
在您的 agent 中获取该论文:
hf papers read 2606.05254
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型(0)
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.05254 以从此页面链接。
引用此论文的数据集(0)
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.05254 以从此页面链接。
引用此论文的 Spaces(0)
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.05254 以从此页面链接。
包含此论文的收藏集(0)
没有包含此论文的收藏集
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
Discrete-WAM:面向世界-策略学习的统一离散视觉-动作令牌编辑
介绍了Discrete-WAM,一种统一的离散潜在视觉-动作世界策略,通过对齐的离散令牌和共享的离散扩散框架,在自动驾驶中实现组合因果推理和反事实推理。
何时信任想象:世界行动模型的自适应动作执行
本文介绍了 FFDC,一种用于世界行动模型的轻量级验证器,它通过检查预测观察与实际观察之间的一致性,实现了自适应动作块大小,从而提高了机器人操作的效率和鲁棒性。
世界行动模型:具身智能的下一个前沿
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。
世界-动作交互模型的DAWN
本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。
World-Language-Action模型:统一世界建模、语言推理与动作合成
本文介绍了World-Language-Action(WLA)模型,这是一种具身基础模型,能够从文本、图像和机器人状态中联合预测文本子任务、子目标图像和机器人动作,在模拟和真实环境中实现了最先进的多任务与长周期学习能力。