Count Anything (2分钟阅读)
摘要
Count Anything 是一个用于文本引导的目标计数的通用模型,统一了多个领域,由新的 CLOC 数据集支持,该数据集包含跨越六个视觉领域的 220K 张图像。它实现了强大的准确性和多领域泛化能力。
目标计数仍然分散在特定领域的数据集和任务公式中。现有的计数模型通常针对特定场景定制,难以在类别、视觉领域、物体尺度和密度分布之间进行泛化。本文提出了一种用于文本引导目标计数的通用模型,该模型实现了强大的准确性和多领域泛化能力。
查看缓存全文
缓存时间: 2026/06/16 00:52
# 万事皆可计数 来源:https://arxiv.org/abs/2605.30846 ## 标题:万事皆可计数 查看 PDF (https://arxiv.org/pdf/2605.30846) > 摘要:尽管通用视觉模型取得了快速进展,目标计数仍然分散在特定领域的数据集和任务公式中。现有的计数模型通常针对人群、车辆、细胞、农作物或遥感目标等场景而定制,因此难以跨类别、视觉域、目标尺度和密度分布进行泛化。在本文中,我们研究了跨域文本引导的目标计数,其中模型以图像和自然语言查询为输入,并返回一组基于实例的目标点,其基数即为计数。这种公式统一了类别条件计数与可解释的空间定位。为了支持这一设定,我们构建了CLOC(跨域大规模目标计数数据集),该数据集将多样的公开数据源重组为一个统一的基准。CLOC涵盖了六个视觉域:通用场景、遥感、组织病理学、细胞显微、农业和微生物学,拥有约22万张图像、619个类别和1500万个目标实例。基于CLOC,我们提出了Count Anything,一个用于文本引导目标计数的通用模型。与主导计数模型的密度图方法不同,Count Anything采用离散的实例点,并执行双粒度实例枚举。区域级稀疏计数器为大型稀疏目标提供目标级锚点,而像素级密集计数器则通过密集点预测处理小型、拥挤和弱边界的目标。点中心监督策略能够从异构标注中学习,互补计数融合则通过无参数方式结合两个计数器的结果。大量实验表明,Count Anything 在准确性和多域泛化方面表现出色,超越了现有的开放世界计数方法。代码可在以下网址获取:this https URL (https://github.com/Mengqi-Lei/count-anything)。 ## 提交历史 来自:Mengqi Lei [查看邮件 (https://arxiv.org/show-email/167da367/2605.30846)] **\[v1\]** 2026年5月29日,星期五,05:08:31 UTC(41,518 KB)
相似文章
Count Anything
Count Anything 是一个通用的视觉模型,用于跨多个领域的文本引导目标计数,采用双粒度实例枚举和互补计数融合。它实现了高精度和跨领域泛化能力,优于现有的开放世界计数方法。
几乎无所不能的 Codex
OpenAI 的 Codex 现已支持 Mac 应用控制、更多工具集成、图像生成、用户偏好记忆,并能处理持续性的重复任务。
@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
LocateAnything: 快速高质量的视觉-语言定位与并行框解码
LocateAnything 提出并行框解码用于统一视觉定位与目标检测,将几何元素解码为原子单元,以提高吞吐量和定位精度,并得到包含1.38亿样本的大规模数据集的支持。
MCBench: 面向全模态大语言模型的多语境安全评估基准
MCBench是一个新基准,用于评估全模态大语言模型在视觉、音频和文本模态下的安全性。它包含1196个场景,并发现当前模型难以进行跨模态安全推理。