@zhijianliu_: 推理 VLA 会思考,只是不够快——直到现在。推出 FlashDrive:RTX PRO 6000 上 716 ms → 159 ms……

X AI KOLs Timeline 论文

摘要

FlashDrive 将推理视觉-语言-动作模型在 RTX PRO 6000 上的延迟从 716 ms 降至 159 ms,最高加速 5.7 倍,零精度损失,让实时自主应用成为可能。

推理 VLA 会思考,只是不够快——直到现在。 推出 FlashDrive 716 ms → 159 ms on RTX PRO 6000(最高 5.7×) 零精度损失 FlashDrive = 流式推理 + DFlash 投机推理 + ParoQuant W4A8 实时推理,赋能自主系统
查看原文
查看缓存全文

缓存时间: 2026/04/21 09:00

推理 VLA 会思考,只是过去不够快。
现在,它终于“踩下油门”。


FlashDrive 来了
716 ms → 159 ms on RTX PRO 6000(最高 5.7× 加速
零精度损失

FlashDrive = 流式推理 + DFlash 投机推理 + ParoQuant W4A8
为自主系统带来实时推理

相似文章

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

OneVL:基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v

Fast-dDrive: 用于自动驾驶的高效块扩散VLM

arXiv cs.CL

Fast-dDrive是一种用于端到端自动驾驶的块扩散VLA模型,实现了最先进的轨迹精度,同时相比自回归基线提供了超过12倍的吞吐量加速,解决了高保真规划与边缘部署高效推理之间的权衡。