@VincentLogic: 英伟达开源了一个视觉定位模型:LocateAnything-3B 几十个小黄人密密麻麻堆在一起 它一个不漏,全部框出来了 这背后的技术变化比"更准"这两个字值得多说一句

X AI KOLs Timeline 模型

摘要

英伟达开源了视觉定位模型 LocateAnything-3B,能够在密集场景中精准检测并框出所有目标对象。

英伟达开源了一个视觉定位模型:LocateAnything-3B 几十个小黄人密密麻麻堆在一起 它一个不漏,全部框出来了 这背后的技术变化比"更准"这两个字值得多说一句 https://t.co/8DanYAKjFr
查看原文
查看缓存全文

缓存时间: 2026/06/27 11:54

英伟达开源了一个视觉定位模型:LocateAnything-3B

几十个小黄人密密麻麻堆在一起

它一个不漏,全部框出来了

这背后的技术变化比“更准“这两个字值得多说一句 https://t.co/8DanYAKjFr

相似文章

@VincentLogic: NVIDIA 刚开源的这个 LocateAnything 模型,真的有点强。 以前那种视觉定位模型,生成坐标是一个数字一个数字往外蹦(像挤牙膏一样),又慢又不稳定。 这个新模型用了“并行边界框解码”,直接一步预测完整坐标,速度快多了,框得…

X AI KOLs Timeline

NVIDIA 开源了 LocateAnything 模型,采用并行边界框解码技术,一步预测完整坐标,速度快且准确。模型仅 3B 参数,可在消费级显卡上运行,支持视频物体定位、UI 识别和 OCR 等任务。

@oragnes: 卧槽,GitHub上刚挖到的神器map3d,基于OpenStreetMap,你在网页上框选一个区域,它就能自动把真实的建筑物、道路数据抓下来,一键渲染成自带高度的3D城市模型! 最狠的是还能直接导出GLB文件,塞进Blender或游戏引擎…

X AI KOLs Timeline

介绍GitHub上两个开源工具:map3d,基于OpenStreetMap自动生成3D城市模型并导出GLB文件;Voice-Pro,集成视频下载、人声分离、字幕识别、翻译、声音克隆配音和视频合成的本地工具。

@vintcessun: 大规模监控里的中心化融合,当你摄像头到几十上百台,计算瓶颈直接卡死,根本没法扩容,光一个中央站就烧掉大半预算。 这就是为什么不搞分布式的多视角跟踪没法真正落地——中心化方案的扩展成本会随节点数指数飙升,而工程上要的是一次大规模、低成本部署…

X AI KOLs Timeline

MV3DT 是一种全分布式的多视角 3D 跟踪框架,通过点对点协调消除了中心化融合的计算瓶颈,在 100 台摄像头上以 30FPS 运行且通信开销仅 2.2%,零样本校准即可部署,性能达到或超过中心化方法。