标签
NVIDIA 开源了 LocateAnything 模型,采用并行边界框解码技术,一步预测完整坐标,速度快且准确。模型仅 3B 参数,可在消费级显卡上运行,支持视频物体定位、UI 识别和 OCR 等任务。
NVIDIA 的 LocateAnything 是一个重新思考边界框预测的视觉语言检测模型,现已成为 Hugging Face Space 并在该平台上排名第一。该空间模板由 @_akhaliq 创建。
NVIDIA 研究团队发布了 LocateAnything,一种重新定义边界框预测的视觉语言检测模型,该模型在 HuggingFace 上排名第一。