@DataChaz: NVIDIA 刚完成了一项疯狂之举:通过移除整个行业认为必不可少的步骤,将边界框检测速度提升至10倍。

X AI KOLs Timeline 论文

摘要

NVIDIA研究人员开发了一种技术,通过消除VLM基础模型用于自动回归逐token预测的步骤,将边界框检测速度提升了10倍。

🚨 NVIDIA 刚完成了一项疯狂之举:通过移除整个行业认为必不可少的步骤,将边界框检测速度提升至10倍 ↓ 每个 VLM 基础模型都把边界框当作句子来处理,逐 token 预测。这本质上很慢。 详情请见 https://t.co/OE7fxZFF4V
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:35

🚨 NVIDIA 刚刚完成了一项疯狂的操作:通过移除整个行业都认为必须的精确步骤,使边界框检测速度快了 10 倍 ↓

每个 VLM grounding 模型都将框视为句子,逐词预测。这本质上很慢。

进入 https://t.co/OE7fxZFF4V

相似文章

@VincentLogic: NVIDIA 刚开源的这个 LocateAnything 模型,真的有点强。 以前那种视觉定位模型,生成坐标是一个数字一个数字往外蹦(像挤牙膏一样),又慢又不稳定。 这个新模型用了“并行边界框解码”,直接一步预测完整坐标,速度快多了,框得…

X AI KOLs Timeline

NVIDIA 开源了 LocateAnything 模型,采用并行边界框解码技术,一步预测完整坐标,速度快且准确。模型仅 3B 参数,可在消费级显卡上运行,支持视频物体定位、UI 识别和 OCR 等任务。