visual-localization

标签

#visual-localization

@VincentLogic: NVIDIA 刚开源的这个 LocateAnything 模型，真的有点强。以前那种视觉定位模型，生成坐标是一个数字一个数字往外蹦（像挤牙膏一样），又慢又不稳定。这个新模型用了“并行边界框解码”，直接一步预测完整坐标，速度快多了，框得…

X AI KOLs Timeline ↗ · 2天前缓存

NVIDIA 开源了 LocateAnything 模型，采用并行边界框解码技术，一步预测完整坐标，速度快且准确。模型仅 3B 参数，可在消费级显卡上运行，支持视频物体定位、UI 识别和 OCR 等任务。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈