@ZhidingYu:感谢 NVIDIA!我将在 #CVPR2026 上于 NVIDIA 展台展示 LocateAnything:6月5日 MDT 下午4:20-4:40(周五…

X AI KOLs Following 论文

摘要

NVIDIA 推出了 LocateAnything,这是一个统一的生成式定位与检测框架,采用并行框解码(Parallel Box Decoding)来提升解码吞吐量和定位精度。该工作将在 CVPR 2026 上进行展示。

感谢 NVIDIA!我将在 #CVPR2026 上于 NVIDIA 展台展示 LocateAnything:6月5日 MDT 下午4:20-4:40(周五)6月6日 MDT 下午2:00-2:20(周六)。欢迎参加!CVPR 见!项目页面:https://research.nvidia.com/labs/lpr/locate-anything/… 技术报告:https://huggingface.co/papers/2605.27365… 模型:
查看原文
查看缓存全文

缓存时间: 2026/05/29 23:58

感谢NVIDIA!我将在#CVPR2026的NVIDIA展台展示LocateAnything: 6月5日 下午4:20 - 4:40(MDT,周五) 6月6日 下午2:00 - 2:20(MDT,周六) 欢迎参加!CVPR见! 项目页面:https://research.nvidia.com/labs/lpr/locate-anything/ 技术报告:https://huggingface.co/papers/2605.27365 模型:


LocateAnything

来源:https://research.nvidia.com/labs/lpr/locate-anything/ 摘要

突破VLM定位中的自回归瓶颈

视觉-语言模型(VLM)通常将视觉定位和检测建模为坐标词元生成问题,将每个2D框序列化为多个1D词元,这些词元在很大程度上独立学习和解码。这种逐词元解码与边界框几何结构的耦合特性不匹配,并且由于严格的顺序生成,造成了实际的推理瓶颈。

我们提出LocateAnything,一个基于**并行框解码(PBD)**的统一生成式定位与检测框架。通过将边界框和点等几何元素作为原子单元单步解码,LocateAnything保持了框内几何一致性,并释放了显著的并行性。我们证明PBD在解码吞吐量和定位精度上均有提升。

我们进一步开发了可扩展的数据引擎,并整理了LocateAnything-Data,这是一个包含超过1.38亿训练样本的大规模数据集,大幅增加了高精度定位的数据多样性。广泛评估表明,LocateAnything推进了速度-精度前沿,在多个基准上实现了显著更高的解码吞吐量,同时提升了高IoU定位质量。这些结果突显了并行框解码与大规模训练数据在实现高效、精确的统一视觉定位与检测中的互补优势。

方法

LocateAnything:并行框解码

为了兼顾高吞吐量解码与可靠定位,我们提出LocateAnything,一个基于**并行框解码(PBD)**的VLM视觉检测与定位统一框架。

词元解码方法对比标准词元解码方法与并行框解码(PBD)的对比。

框对齐原子单元

  • **输入:**一张图像和一段自然语言文本查询。视觉编码器以原生分辨率提取视觉词元,保留细粒度空间细节以实现高精度定位。
  • 并行解码:LocateAnything将每个边界框(或点)视为固定长度的原子单元,并一步并行预测完整的坐标集(x1, y1, x2, y2),避免了坐标词元的任意分块。
  • **架构:**基于Moon-ViT视觉编码器和Qwen2.5语言解码器,通过MLP投影器桥接,直接将视觉词元转换为对齐框的块级预测序列。

灵活推理模式

  • **快速模式(MTP):**并行预测完整边界框以实现最大吞吐量,适用于延迟和计算受限的场景,如端侧机器人和具身智能体。
  • **慢速模式(NTP):**自回归解码坐标词元以实现最大稳定性,适用于高精度标注、数据集整理和注重精度的离线评估。
  • **混合模式:**默认使用快速模式,当检测到格式不规则或空间歧义时回退到慢速模式,在保持稳健输出的同时保留大部分速度增益。

LocateAnything解码架构图 LocateAnything使用并行框解码的架构概览。

按需推理:修正的NTP重新解码

当并行解码遇到格式不规则(类别边界处的畸形语法)或空间歧义(密集排列物体间的中间坐标)时,有问题的块被丢弃,生成过程回退到最后一个验证过的前缀。然后NTP自回归生成该问题块的词元,之后再切换回MTP。

修正的NTP重新解码图 修正的NTP重新解码:当并行解码遇到格式不规则或空间歧义时,模型丢弃错误块并回退到标准NTP,以确保稳健预测。

LocateAnything-Data

1.38亿多样化语言查询与7.85亿个框

LocateAnything-Data查询分布 涵盖的多样化查询类型概览。

为了训练一个通用视觉检测与定位的高性能模型,我们整理了LocateAnything-Data,一个多领域数据集,包含1200万张独特图像和海量密集的监督空间信号。

通用物体检测

占查询的66.9%,框的83.1%。提供必要的边界框监督,以实现精确和密集的坐标对齐。

GUI元素定位

占查询的16.5%。使模型能够支持具身智能体和图形用户界面导航任务。

指代理解

占查询的7.3%。将复杂的自然语言意图与图像中的特定空间区域联系起来。

文本定位(OCR)

占查询的3.6%。感知并紧密定位图像中的文本信息。

布局定位

占查询的3.5%。增强文档和场景布局理解的结构化推理能力。

基于点的定位

占查询的2.2%。细化细粒度坐标预测的空间精度。

主要结果

最先进的视觉定位与检测

我们报告了LocateAnything在默认混合模式下的精度指标和吞吐量(BPS,在单块NVIDIA H100 GPU上测量)。LocateAnything达到12.7 BPS,比基于文本的Qwen3-VL(1.1 BPS)快10倍以上,比基于量化的Rex-Omni(5.0 BPS)快2.5倍。

高质量多物体检测

LVIS和COCO上的结果 LVIS和COCO上的结果。 与相同模型规模的Rex-Omni相比,LocateAnything在LVIS上平均F1提升+3.8%,在COCO上提升+1.8%,在高IoU阈值下增益尤为显著(LVIS上IoU=0.95时为31.1 vs 20.7)。

密集物体检测结果 密集物体检测。 在密集检测基准Dense200和VisDrone上,LocateAnything分别达到58.7和39.9的平均F1,大幅优于Rex-Omni(58.3 / 35.8),展示了在高度重叠环境中的优越边界描绘能力。

精确开放世界定位

GUI定位结果(ScreenSpot-Pro) GUI定位(ScreenSpot-Pro)。 LocateAnything达到SOTA平均F1 60.3,超越了通用VLM如Qwen3-VL-30B-A3B和专用模型如GUI-Owl-32B,在基于图标的查询上表现尤为强劲。

布局定位与OCR结果 布局定位与OCR。 LocateAnything在文档理解上树立了新标准:DocLayNet和M6Doc上的平均F1分别为76.8和70.1,以显著优势超越Rex-Omni(+6.1 / +14.5)。在TotalText OCR上达到43.3平均F1,超越了所有对比方法。

指代表达理解结果 指代表达理解。 LocateAnything将细微的人类意图与视觉区域无缝对齐,在HumanRef上达到78.7平均F1,并在RefCOCOg上与顶尖模型保持高度竞争力。

指点任务结果 基于点的定位。 在COCO、LVIS、Dense200、VisDrone、HumanRef和RefCOCOg基准上对基于点的定位进行评估。

消融研究

分析设计选择与解码效率

我们在COCO数据集上进行消融研究,以验证我们在坐标表示、MTP公式、解码模式、框输出顺序和吞吐量缩放方面的核心设计。

消融研究表格 坐标表示、MTP公式与解码模式。 (a) PBD(慢速模式)达到最高F1 52.1,证明框对齐公式比1D序列化提供更强的监督。(b) PBD在F1提升的同时,在速度上大幅超越结构无关的MTP方法(16.9 BPS vs SDLM-B6的5.5 BPS)。(c) 联合训练将慢速模式F1推至52.1;混合模式在51.6 F1下保留了大部分速度增益(13.2 BPS)。

解码模式对比 解码模式对比。 联合双公式训练成功将慢速模式的上限从50.1提升至52.1 F1。混合模式无缝解决了速度-精度权衡,实现了稳健的高精度定位,同时保留了大部分速度增益。

框排序与解码吞吐量消融 框排序与解码吞吐量。 左: X-Y角点排序在四种空间排序策略中取得了最高的F1分数。右: 随着目标框从20增加到300,NTP方法面临严重的延迟瓶颈,而并行框解码实现了2倍至6倍的速度提升,在密集场景中吞吐量从12 BPS扩展到约25 BPS。

定性结果

真实世界中的高质量定位

LocateAnything在文档理解、GUI交互和物体检测任务中实现了精确的视觉定位。

LocateAnything定位能力的定性示例 跨多种分辨率和类别的密集高精度框预测的定性可视化。

密集物体检测示例 密集物体检测

OCR定位示例 高精度OCR

指代表达理解示例 指代表达理解

引用

如果您发现LocateAnything的并行框解码对您的研究有用,请考虑引用我们的工作。

@article{wang2025locateanything, title = {LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding}, author = {Shihao Wang and Shilong Liu and Yuanguo Kuang and Xinyu Wei and Yangzhou Liu and Zhiqi Li and Yunze Man and Guo Chen and Andrew Tao and Guilin Liu and Jan Kautz and Lei Zhang and Zhiding Yu}, journal = {arXiv preprint arXiv:2605.27365}, year = {2026}, }

相似文章

@VincentLogic: NVIDIA 刚开源的这个 LocateAnything 模型,真的有点强。 以前那种视觉定位模型,生成坐标是一个数字一个数字往外蹦(像挤牙膏一样),又慢又不稳定。 这个新模型用了“并行边界框解码”,直接一步预测完整坐标,速度快多了,框得…

X AI KOLs Timeline

NVIDIA 开源了 LocateAnything 模型,采用并行边界框解码技术,一步预测完整坐标,速度快且准确。模型仅 3B 参数,可在消费级显卡上运行,支持视频物体定位、UI 识别和 OCR 等任务。