@zhijianliu_: 推理 VLA 会思考,只是不够快——直到现在。推出 FlashDrive:RTX PRO 6000 上 716 ms → 159 ms……
摘要
FlashDrive 将推理视觉-语言-动作模型在 RTX PRO 6000 上的延迟从 716 ms 降至 159 ms,最高加速 5.7 倍,零精度损失,让实时自主应用成为可能。
查看缓存全文
缓存时间: 2026/04/21 09:00
推理 VLA 会思考,只是过去不够快。
现在,它终于“踩下油门”。
FlashDrive 来了
716 ms → 159 ms on RTX PRO 6000(最高 5.7× 加速)
零精度损失
FlashDrive = 流式推理 + DFlash 投机推理 + ParoQuant W4A8
为自主系统带来实时推理
相似文章
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
@AdinaYakup: Step-3.7-Flash 来自@StepFun_ai的新VL模型 198B/11B活跃参数 - MoE 256K上下文 3推理等级 高达400 tokens/秒
StepFun 发布了 Step-3.7-Flash,这是一个新的视觉语言 MoE 大模型,拥有 198B 参数(11B 激活),256K 上下文,推理速度高达 400 tokens/秒。
VLM是通过自适应测试时优化进行视频推理的优秀教师
本文提出一种新范式:视觉-语言模型(VLM)作为测试时教师,通过可微分奖励和LoRA优化引导视频生成模型(VGM),在视频推理基准测试上平均提升16.7个百分点。
OneVL:基于视觉语言解释的单步隐式推理与规划
# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v
Fast-dDrive: 用于自动驾驶的高效块扩散VLM
Fast-dDrive是一种用于端到端自动驾驶的块扩散VLA模型,实现了最先进的轨迹精度,同时相比自回归基线提供了超过12倍的吞吐量加速,解决了高保真规划与边缘部署高效推理之间的权衡。