adirik/grounding-dino
摘要
Grounding DINO 是一个开放词汇的目标检测模型,能够根据文本描述检测任意对象,现已在 Replicate 上可用。
adirik / grounding-dino
查看缓存全文
缓存时间: 2026/05/08 06:25
# adirik/grounding-dino – Replicate
来源:https://replicate.com/adirik/grounding-dino
## 自述文件
Grounding DINO 能够通过人类文本输入(如类别名称或指代表达)检测任意物体。该模型架构将基于 Transformer 的检测器 DINO 与接地预训练相结合,以实现开放词汇/文本引导的目标检测。详情请参阅论文 (https://arxiv.org/abs/2303.05499) 和原始仓库 (https://github.com/IDEA-Research/GroundingDINO)。
## 使用 API
你可以使用 Grounding DINO 通过任意物体的文本描述来查询图像。用法很简单:上传一张图片,然后输入用逗号分隔的、你想查询的物体文本描述。预期输入参数如下:
- **image:** 你的输入图像
- **query:** 描述你要检测的物体的文本查询,多个查询用逗号分隔
- **box\_threshold:** 选择最高相似度高于 box\_threshold 的边界框
- **text\_threshold:** 提取相似度高于 text\_threshold 的词语作为预测标签
## 参考文献
```
@article{liu2023grounding,
title={Grounding dino: Marrying dino with grounded pre-training for open-set object detection},
author={Liu, Shilong and Zeng, Zhaoyang and Ren, Tianhe and Li, Feng and Zhang, Hao and Yang, Jie and Li, Chunyuan and Yang, Jianwei and Su, Hang and Zhu, Jun and others},
journal={arXiv preprint arXiv:2303.05499},
year={2023}
}
```
模型创建于 1 年多以前
相似文章
LocateAnything: 快速高质量的视觉-语言定位与并行框解码
LocateAnything 提出并行框解码用于统一视觉定位与目标检测,将几何元素解码为原子单元,以提高吞吐量和定位精度,并得到包含1.38亿样本的大规模数据集的支持。
DRS-GUI: 动态区域搜索实现免训练GUI定位
DRS-GUI提出了一种免训练的动态区域搜索框架用于GUI定位,通过轻量级UI感知器模拟人类感知行为,并结合蒙特卡洛树搜索逐步定位与指令相关的元素。实验表明,在ScreenSpot-Pro上,通用和GUI专用多模态大语言模型的定位性能提升了14%。
面向一对多时序定位
本文介绍了一对多时序定位(OMTG)这一新任务,用于从单个文本查询中定位多个不连续的视频片段,同时提供了基准、评估指标、包含56k样本的数据集以及新颖的奖励函数,取得了最新最优的结果,优于Gemini 2.5 Pro和Seed-1.8。
RoboSemanticBench:诊断VLA模型动作预测中的语义基础
RoboSemanticBench 是一个基准测试,用于诊断视觉-语言-动作模型在动作预测中的语义基础,揭示机器人虽然能够抓取物体,但无法根据指令语义选择语义上正确的目标。
重新思考边缘持续异常检测:在真实工业条件下的基准测试
本文介绍了一个用于工业检测中持续异常检测的统一基准,解决了不现实的评估和边缘部署约束问题,并提出了DINOSaur,一种无需训练的方法,在边缘硬件上以零遗忘和低于100毫秒的推理速度优于现有方法。