ABACUS: 适配统一基础模型以桥接图像计数理解与生成

Hugging Face Daily Papers 2026/06/22 00:00 论文

vision-language-model object-counting crowd-counting image-generation grpo spatial-grounding foundation-model

摘要

ABACUS 是一个统一的视觉语言模型，可处理多个计数任务和忠实于计数的图像生成，无需针对特定基准进行训练，在七个基准测试中取得了最先进的结果。

ABACUS 是一个统一的视觉语言模型，可处理目标计数、人群计数、指代表达式计数和忠实于计数的图像生成，无需任何针对特定基准的训练。我们的模型基于现有的 3B 参数统一基础模型，并通过三项关键创新适配为目标定位任务：使用带有物体图（objectness maps）的密度感知自适应缩放实现空间定位；通过 GRPO 的边界感知计数策略消除裁剪边界错误；以及一种循环一致性 GRPO 策略，其中理解分支自我批评生成的输出，无需任何外部标注即可弥合理解与生成之间的差距。ABACUS 在七个基准测试中取得了最先进的成果，超越了特定任务专用模型和更大的通用模型。

查看原文

查看缓存全文

缓存时间: 2026/06/27 03:48

论文页面 - ABACUS：自适应统一基础模型用于图像计数理解与生成

来源：https://huggingface.co/papers/2606.23835

ABACUS是一个统一的视觉语言模型，能够处理目标计数、人群计数、指代表达式计数以及高保真度的计数图像生成，且无需针对特定基准进行训练。我们的模型基于现有的30亿参数统一基础模型构建，并通过三项关键创新适配于目标定位任务：利用带有显著性图的密度感知自适应缩放技术实现空间定位；通过GRPO的边界感知计数策略消除裁剪边界误差；以及采用循环一致性GRPO策略，使理解分支对生成的输出进行自我批评，在无需任何外部标注的情况下弥合理解与生成之间的差距。ABACUS在七个基准测试中均取得了最先进的结果，超越了专用任务模型和更大型的通用模型。

预告图 (https://cdn-uploads.huggingface.co/production/uploads/6399ab3296ce14c5dcf4ccbf/_NnWXW3Mttnh7SBh4V1Tv.jpeg)

ABACUS: 适配统一基础模型以桥接图像计数理解与生成

论文页面 - ABACUS：自适应统一基础模型用于图像计数理解与生成

相似文章

Count Anything (2分钟阅读)

Count Anything

AFUN：迈向功能性理解的可供性基础模型

统一多模态自回归建模：共享上下文-视觉分词器是实现统一的关键

覆盖计算机使用的人类动作空间：数据合成与基准测试

提交意见反馈