@VincentLogic: NVIDIA 刚开源的这个 LocateAnything 模型,真的有点强。 以前那种视觉定位模型,生成坐标是一个数字一个数字往外蹦(像挤牙膏一样),又慢又不稳定。 这个新模型用了“并行边界框解码”,直接一步预测完整坐标,速度快多了,框得…

X AI KOLs Timeline 模型

摘要

NVIDIA 开源了 LocateAnything 模型,采用并行边界框解码技术,一步预测完整坐标,速度快且准确。模型仅 3B 参数,可在消费级显卡上运行,支持视频物体定位、UI 识别和 OCR 等任务。

NVIDIA 刚开源的这个 LocateAnything 模型,真的有点强。 以前那种视觉定位模型,生成坐标是一个数字一个数字往外蹦(像挤牙膏一样),又慢又不稳定。 这个新模型用了“并行边界框解码”,直接一步预测完整坐标,速度快多了,框得也准。 不管是找视频里的物体,还是识别UI界面、OCR文字,它都能搞定。 最关键是模型很小,只有 3B 参数(约7.8GB),消费级显卡也能本地跑! 做计算机视觉或者多模态的朋友,这个必须得试试。 项目已开源,手慢无!
查看原文
查看缓存全文

缓存时间: 2026/06/03 17:53

NVIDIA 刚开源的这个 LocateAnything 模型,真的有点强。

以前那种视觉定位模型,生成坐标是一个数字一个数字往外蹦(像挤牙膏一样),又慢又不稳定。 这个新模型用了“并行边界框解码”,直接一步预测完整坐标,速度快多了,框得也准。

不管是找视频里的物体,还是识别UI界面、OCR文字,它都能搞定。 最关键是模型很小,只有 3B 参数(约7.8GB),消费级显卡也能本地跑!

做计算机视觉或者多模态的朋友,这个必须得试试。 项目已开源,手慢无!

相似文章

@VincentLogic: NVIDIA 这次真的不讲武德,直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni,处理视频快得离谱:1 小时就能搞定 10 小时的视频内容,比播放速度还快 10 倍 核心靠的是 3D 卷积技术,不再逐帧傻扫,而是成…

X AI KOLs Timeline

NVIDIA 开源了视频理解模型 Nemotron 3 Nano Omni,采用 3D 卷积技术,处理速度比播放速度快 10 倍,擅长音视频分析、监控检索和素材打标,但不适用于代码或文本推理任务。