@VincentLogic: 英伟达开源了一个视觉定位模型:LocateAnything-3B 几十个小黄人密密麻麻堆在一起 它一个不漏,全部框出来了 这背后的技术变化比"更准"这两个字值得多说一句
摘要
英伟达开源了视觉定位模型 LocateAnything-3B,能够在密集场景中精准检测并框出所有目标对象。
英伟达开源了一个视觉定位模型:LocateAnything-3B
几十个小黄人密密麻麻堆在一起
它一个不漏,全部框出来了
这背后的技术变化比"更准"这两个字值得多说一句 https://t.co/8DanYAKjFr
查看缓存全文
缓存时间: 2026/06/27 11:54
英伟达开源了一个视觉定位模型:LocateAnything-3B
几十个小黄人密密麻麻堆在一起
它一个不漏,全部框出来了
这背后的技术变化比“更准“这两个字值得多说一句 https://t.co/8DanYAKjFr
相似文章
@VincentLogic: NVIDIA 刚开源的这个 LocateAnything 模型,真的有点强。 以前那种视觉定位模型,生成坐标是一个数字一个数字往外蹦(像挤牙膏一样),又慢又不稳定。 这个新模型用了“并行边界框解码”,直接一步预测完整坐标,速度快多了,框得…
NVIDIA 开源了 LocateAnything 模型,采用并行边界框解码技术,一步预测完整坐标,速度快且准确。模型仅 3B 参数,可在消费级显卡上运行,支持视频物体定位、UI 识别和 OCR 等任务。
@Phoenixyin13: 英伟达的SpatialClaw新鲜出炉。 这个框架,直接可以让 VLM 在持久的 Python 环境里一步步写代码,像 Jupyter 一样慢慢来。从调用 SAM3 看东西,算深度、用 NumPy、SciPy 处理数据、实时看结果,不行就…
英伟达推出了SpatialClaw,一个基于代码的免训练代理框架,用于复杂视觉空间推理任务,在20个基准上平均达到59.9%,比之前最佳模型高11.2分。
@oragnes: 卧槽,GitHub上刚挖到的神器map3d,基于OpenStreetMap,你在网页上框选一个区域,它就能自动把真实的建筑物、道路数据抓下来,一键渲染成自带高度的3D城市模型! 最狠的是还能直接导出GLB文件,塞进Blender或游戏引擎…
介绍GitHub上两个开源工具:map3d,基于OpenStreetMap自动生成3D城市模型并导出GLB文件;Voice-Pro,集成视频下载、人声分离、字幕识别、翻译、声音克隆配音和视频合成的本地工具。
LocateAnything: 快速高质量的视觉-语言定位与并行框解码
LocateAnything 提出并行框解码用于统一视觉定位与目标检测,将几何元素解码为原子单元,以提高吞吐量和定位精度,并得到包含1.38亿样本的大规模数据集的支持。
@vintcessun: 大规模监控里的中心化融合,当你摄像头到几十上百台,计算瓶颈直接卡死,根本没法扩容,光一个中央站就烧掉大半预算。 这就是为什么不搞分布式的多视角跟踪没法真正落地——中心化方案的扩展成本会随节点数指数飙升,而工程上要的是一次大规模、低成本部署…
MV3DT 是一种全分布式的多视角 3D 跟踪框架,通过点对点协调消除了中心化融合的计算瓶颈,在 100 台摄像头上以 30FPS 运行且通信开销仅 2.2%,零样本校准即可部署,性能达到或超过中心化方法。