@VincentLogic: 英伟达开源了一个视觉定位模型：LocateAnything-3B 几十个小黄人密密麻麻堆在一起它一个不漏，全部框出来了这背后的技术变化比"更准"这两个字值得多说一句

X AI KOLs Timeline 2026/06/26 14:19 模型

nvidia open-source visual-grounding object-detection locanything-3b

摘要

英伟达开源了视觉定位模型 LocateAnything-3B，能够在密集场景中精准检测并框出所有目标对象。

英伟达开源了一个视觉定位模型：LocateAnything-3B 几十个小黄人密密麻麻堆在一起它一个不漏，全部框出来了这背后的技术变化比"更准"这两个字值得多说一句 https://t.co/8DanYAKjFr

查看原文

查看缓存全文

缓存时间: 2026/06/27 11:54

英伟达开源了一个视觉定位模型：LocateAnything-3B

几十个小黄人密密麻麻堆在一起

它一个不漏，全部框出来了

这背后的技术变化比“更准“这两个字值得多说一句 https://t.co/8DanYAKjFr

相似文章

X AI KOLs Timeline

NVIDIA 开源了 LocateAnything 模型，采用并行边界框解码技术，一步预测完整坐标，速度快且准确。模型仅 3B 参数，可在消费级显卡上运行，支持视频物体定位、UI 识别和 OCR 等任务。

X AI KOLs Timeline

英伟达推出了SpatialClaw，一个基于代码的免训练代理框架，用于复杂视觉空间推理任务，在20个基准上平均达到59.9%，比之前最佳模型高11.2分。

X AI KOLs Timeline

介绍GitHub上两个开源工具：map3d，基于OpenStreetMap自动生成3D城市模型并导出GLB文件；Voice-Pro，集成视频下载、人声分离、字幕识别、翻译、声音克隆配音和视频合成的本地工具。

Hugging Face Daily Papers

LocateAnything 提出并行框解码用于统一视觉定位与目标检测，将几何元素解码为原子单元，以提高吞吐量和定位精度，并得到包含1.38亿样本的大规模数据集的支持。

X AI KOLs Timeline

MV3DT 是一种全分布式的多视角 3D 跟踪框架，通过点对点协调消除了中心化融合的计算瓶颈，在 100 台摄像头上以 30FPS 运行且通信开销仅 2.2%，零样本校准即可部署，性能达到或超过中心化方法。