ABACUS: 适配统一基础模型以桥接图像计数理解与生成
摘要
ABACUS 是一个统一的视觉语言模型,可处理多个计数任务和忠实于计数的图像生成,无需针对特定基准进行训练,在七个基准测试中取得了最先进的结果。
查看缓存全文
缓存时间: 2026/06/27 03:48
论文页面 - ABACUS:自适应统一基础模型用于图像计数理解与生成
来源:https://huggingface.co/papers/2606.23835
ABACUS是一个统一的视觉语言模型,能够处理目标计数、人群计数、指代表达式计数以及高保真度的计数图像生成,且无需针对特定基准进行训练。我们的模型基于现有的30亿参数统一基础模型构建,并通过三项关键创新适配于目标定位任务:利用带有显著性图的密度感知自适应缩放技术实现空间定位;通过GRPO的边界感知计数策略消除裁剪边界误差;以及采用循环一致性GRPO策略,使理解分支对生成的输出进行自我批评,在无需任何外部标注的情况下弥合理解与生成之间的差距。ABACUS在七个基准测试中均取得了最先进的结果,超越了专用任务模型和更大型的通用模型。
预告图 (https://cdn-uploads.huggingface.co/production/uploads/6399ab3296ce14c5dcf4ccbf/_NnWXW3Mttnh7SBh4V1Tv.jpeg)
相似文章
Count Anything (2分钟阅读)
Count Anything 是一个用于文本引导的目标计数的通用模型,统一了多个领域,由新的 CLOC 数据集支持,该数据集包含跨越六个视觉领域的 220K 张图像。它实现了强大的准确性和多领域泛化能力。
Count Anything
Count Anything 是一个通用的视觉模型,用于跨多个领域的文本引导目标计数,采用双粒度实例枚举和互补计数融合。它实现了高精度和跨领域泛化能力,优于现有的开放世界计数方法。
AFUN:迈向功能性理解的可供性基础模型
AFUN 提出了一种可供性基础模型,该模型从 RGB-D 观测和语言描述中预测功能掩码和 3D 运动曲线,从而能够在多种环境中实现泛化的机器人操作。该模型在多个基准测试上优于基线方法,并且无需微调即可部署到实际任务中。
统一多模态自回归建模:共享上下文-视觉分词器是实现统一的关键
UniAR提出了一个统一的自回归框架,使用单个离散视觉分词器桥接视觉理解与生成,在图像生成和编辑方面取得了最佳成果。
覆盖计算机使用的人类动作空间:数据合成与基准测试
本文介绍了CUActSpot,一个用于评估计算机使用代理的多模态基准测试,以及一个基于渲染器的数据合成流程。提出的Phi-Ground-Any-4B模型在32B参数以下的开源模型中表现最佳。