@VincentLogic: NVIDIA 刚开源的这个 LocateAnything 模型，真的有点强。以前那种视觉定位模型，生成坐标是一个数字一个数字往外蹦（像挤牙膏一样），又慢又不稳定。这个新模型用了“并行边界框解码”，直接一步预测完整坐标，速度快多了，框得…

X AI KOLs Timeline 2026/06/03 13:26 模型

visual-localization parallel-decoding open-source nvidia small-model bounding-box

摘要

NVIDIA 开源了 LocateAnything 模型，采用并行边界框解码技术，一步预测完整坐标，速度快且准确。模型仅 3B 参数，可在消费级显卡上运行，支持视频物体定位、UI 识别和 OCR 等任务。

NVIDIA 刚开源的这个 LocateAnything 模型，真的有点强。以前那种视觉定位模型，生成坐标是一个数字一个数字往外蹦（像挤牙膏一样），又慢又不稳定。这个新模型用了“并行边界框解码”，直接一步预测完整坐标，速度快多了，框得也准。不管是找视频里的物体，还是识别UI界面、OCR文字，它都能搞定。最关键是模型很小，只有 3B 参数（约7.8GB），消费级显卡也能本地跑！做计算机视觉或者多模态的朋友，这个必须得试试。项目已开源，手慢无！

查看原文

查看缓存全文

缓存时间: 2026/06/03 17:53

NVIDIA 刚开源的这个 LocateAnything 模型，真的有点强。

以前那种视觉定位模型，生成坐标是一个数字一个数字往外蹦（像挤牙膏一样），又慢又不稳定。这个新模型用了“并行边界框解码”，直接一步预测完整坐标，速度快多了，框得也准。

不管是找视频里的物体，还是识别UI界面、OCR文字，它都能搞定。最关键是模型很小，只有 3B 参数（约7.8GB），消费级显卡也能本地跑！

做计算机视觉或者多模态的朋友，这个必须得试试。项目已开源，手慢无！

相似文章

@ZhidingYu：感谢 NVIDIA！我将在 #CVPR2026 上于 NVIDIA 展台展示 LocateAnything：6月5日 MDT 下午4:20-4:40（周五…

X AI KOLs Following

NVIDIA 推出了 LocateAnything，这是一个统一的生成式定位与检测框架，采用并行框解码（Parallel Box Decoding）来提升解码吞吐量和定位精度。该工作将在 CVPR 2026 上进行展示。

@NVIDIAAI: 我们的研究团队在 #CVPR2026 发表的论文在 @HuggingFace 上排名第一。认识一下 LocateAnything：一个视觉语言检测模型……

X AI KOLs Following

NVIDIA 研究团队发布了 LocateAnything，一种重新定义边界框预测的视觉语言检测模型，该模型在 HuggingFace 上排名第一。

@VincentLogic: NVIDIA 这次真的不讲武德，直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni，处理视频快得离谱：1 小时就能搞定 10 小时的视频内容，比播放速度还快 10 倍核心靠的是 3D 卷积技术，不再逐帧傻扫，而是成…

X AI KOLs Timeline

NVIDIA 开源了视频理解模型 Nemotron 3 Nano Omni，采用 3D 卷积技术，处理速度比播放速度快 10 倍，擅长音视频分析、监控检索和素材打标，但不适用于代码或文本推理任务。

@ZhidingYu: 我们刚刚为 LocateAnything 采用了一个超酷的新空间模板，由伟大的 @_akhaliq 制作。谢谢 AK！试试看…

X AI KOLs Following

NVIDIA 的 LocateAnything 是一个重新思考边界框预测的视觉语言检测模型，现已成为 Hugging Face Space 并在该平台上排名第一。该空间模板由 @_akhaliq 创建。

LocateAnything: 快速高质量的视觉-语言定位与并行框解码

Hugging Face Daily Papers

LocateAnything 提出并行框解码用于统一视觉定位与目标检测，将几何元素解码为原子单元，以提高吞吐量和定位精度，并得到包含1.38亿样本的大规模数据集的支持。

相似文章

@ZhidingYu：感谢 NVIDIA！我将在 #CVPR2026 上于 NVIDIA 展台展示 LocateAnything：6月5日 MDT 下午4:20-4:40（周五…

@NVIDIAAI: 我们的研究团队在 #CVPR2026 发表的论文在 @HuggingFace 上排名第一。认识一下 LocateAnything：一个视觉语言检测模型……

@VincentLogic: NVIDIA 这次真的不讲武德，直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni，处理视频快得离谱：1 小时就能搞定 10 小时的视频内容，比播放速度还快 10 倍 核心靠的是 3D 卷积技术，不再逐帧傻扫，而是成…

@ZhidingYu: 我们刚刚为 LocateAnything 采用了一个超酷的新空间模板，由伟大的 @_akhaliq 制作。谢谢 AK！试试看…

LocateAnything: 快速高质量的视觉-语言定位与并行框解码

提交意见反馈

@VincentLogic: NVIDIA 这次真的不讲武德，直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni，处理视频快得离谱：1 小时就能搞定 10 小时的视频内容，比播放速度还快 10 倍核心靠的是 3D 卷积技术，不再逐帧傻扫，而是成…