Count Anything (2分钟阅读)

TLDR AI 2026/06/15 00:00 论文

object-counting text-guided multi-domain generalist-model computer-vision cloc-dataset

摘要

Count Anything 是一个用于文本引导的目标计数的通用模型，统一了多个领域，由新的 CLOC 数据集支持，该数据集包含跨越六个视觉领域的 220K 张图像。它实现了强大的准确性和多领域泛化能力。

目标计数仍然分散在特定领域的数据集和任务公式中。现有的计数模型通常针对特定场景定制，难以在类别、视觉领域、物体尺度和密度分布之间进行泛化。本文提出了一种用于文本引导目标计数的通用模型，该模型实现了强大的准确性和多领域泛化能力。

查看原文

查看缓存全文

缓存时间: 2026/06/16 00:52

# 万事皆可计数
来源：https://arxiv.org/abs/2605.30846
## 标题：万事皆可计数

查看 PDF (https://arxiv.org/pdf/2605.30846)

> 摘要：尽管通用视觉模型取得了快速进展，目标计数仍然分散在特定领域的数据集和任务公式中。现有的计数模型通常针对人群、车辆、细胞、农作物或遥感目标等场景而定制，因此难以跨类别、视觉域、目标尺度和密度分布进行泛化。在本文中，我们研究了跨域文本引导的目标计数，其中模型以图像和自然语言查询为输入，并返回一组基于实例的目标点，其基数即为计数。这种公式统一了类别条件计数与可解释的空间定位。为了支持这一设定，我们构建了CLOC（跨域大规模目标计数数据集），该数据集将多样的公开数据源重组为一个统一的基准。CLOC涵盖了六个视觉域：通用场景、遥感、组织病理学、细胞显微、农业和微生物学，拥有约22万张图像、619个类别和1500万个目标实例。基于CLOC，我们提出了Count Anything，一个用于文本引导目标计数的通用模型。与主导计数模型的密度图方法不同，Count Anything采用离散的实例点，并执行双粒度实例枚举。区域级稀疏计数器为大型稀疏目标提供目标级锚点，而像素级密集计数器则通过密集点预测处理小型、拥挤和弱边界的目标。点中心监督策略能够从异构标注中学习，互补计数融合则通过无参数方式结合两个计数器的结果。大量实验表明，Count Anything 在准确性和多域泛化方面表现出色，超越了现有的开放世界计数方法。代码可在以下网址获取：this https URL (https://github.com/Mengqi-Lei/count-anything)。

## 提交历史

来自：Mengqi Lei [查看邮件 (https://arxiv.org/show-email/167da367/2605.30846)] **\[v1\]** 2026年5月29日，星期五，05:08:31 UTC（41,518 KB）

Count Anything (2分钟阅读)

相似文章

Count Anything

几乎无所不能的 Codex

@techNmak：1.7B 参数轻量 VLM，在 OmniDocBench 上碾压巨头的 OCR 新王者

LocateAnything: 快速高质量的视觉-语言定位与并行框解码

MCBench: 面向全模态大语言模型的多语境安全评估基准

提交意见反馈