@zhijianliu_: 推理 VLA 会思考，只是不够快——直到现在。推出 FlashDrive：RTX PRO 6000 上 716 ms → 159 ms……

X AI KOLs Timeline 2026/04/19 19:50 论文

摘要

FlashDrive 将推理视觉-语言-动作模型在 RTX PRO 6000 上的延迟从 716 ms 降至 159 ms，最高加速 5.7 倍，零精度损失，让实时自主应用成为可能。

推理 VLA 会思考，只是不够快——直到现在。推出 FlashDrive 716 ms → 159 ms on RTX PRO 6000（最高 5.7×）零精度损失 FlashDrive = 流式推理 + DFlash 投机推理 + ParoQuant W4A8 实时推理，赋能自主系统

查看原文

查看缓存全文

缓存时间: 2026/04/21 09:00

推理 VLA 会思考，只是过去不够快。
现在，它终于“踩下油门”。

FlashDrive 来了
716 ms → 159 ms on RTX PRO 6000（最高 5.7× 加速）
零精度损失

FlashDrive = 流式推理 + DFlash 投机推理 + ParoQuant W4A8
为自主系统带来实时推理

相似文章

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略（VisualThink-VLA）引入了一种用于视觉-语言-行动策略的视觉中间推理框架，该框架保留了空间精度，并相比基于文本的推理显著降低了延迟，在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

@AdinaYakup: Step-3.7-Flash 来自@StepFun_ai的新VL模型 198B/11B活跃参数 - MoE 256K上下文 3推理等级高达400 tokens/秒

X AI KOLs Timeline

StepFun 发布了 Step-3.7-Flash，这是一个新的视觉语言 MoE 大模型，拥有 198B 参数（11B 激活），256K 上下文，推理速度高达 400 tokens/秒。

VLM是通过自适应测试时优化进行视频推理的优秀教师

Hugging Face Daily Papers

本文提出一种新范式：视觉-语言模型（VLM）作为测试时教师，通过可微分奖励和LoRA优化引导视频生成模型（VGM），在视频推理基准测试上平均提升16.7个百分点。

# 论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划来源：[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者：, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架，通过整合语言和 v

Fast-dDrive: 用于自动驾驶的高效块扩散VLM

arXiv cs.CL

Fast-dDrive是一种用于端到端自动驾驶的块扩散VLA模型，实现了最先进的轨迹精度，同时相比自回归基线提供了超过12倍的吞吐量加速，解决了高保真规划与边缘部署高效推理之间的权衡。

相似文章

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

@AdinaYakup: Step-3.7-Flash 来自@StepFun_ai的新VL模型 198B/11B活跃参数 - MoE 256K上下文 3推理等级 高达400 tokens/秒

VLM是通过自适应测试时优化进行视频推理的优秀教师

OneVL：基于视觉语言解释的单步隐式推理与规划

Fast-dDrive: 用于自动驾驶的高效块扩散VLM

提交意见反馈

@AdinaYakup: Step-3.7-Flash 来自@StepFun_ai的新VL模型 198B/11B活跃参数 - MoE 256K上下文 3推理等级高达400 tokens/秒