COMPASS:在统一多模态模型中锚定组合意图引导

arXiv cs.AI 论文

摘要

本文提出了COMPASS,首个能够同时锚定组合意图控制,以进行组合感知和组合引导生成的统一多模态框架,并引入了共享专家令牌和Comp-11数据集。

arXiv:2606.28696v1 公告类型:新 摘要:组合是一种高级视觉意图,决定了主体的放置位置及场景的组织方式,然而当前的统一多模态模型在细粒度组合识别方面仍不可靠,并且难以将此类意图转化为可控生成。我们提出了COMPASS,首个在单一系统中跨越组合感知和组合引导生成两个环节、将组合意图控制进行锚定的统一多模态框架,其中以共享专家令牌 $\tau_c$ 作为核心意图锚点。在感知侧,COMPASS以最小侵入式方式将组合专业知识注入MoE主干网络,并将推断出的意图蒸馏到 $\tau_c$ 中。在生成侧,COMPASS复用 $\tau_c$ 作为全局条件信号,引导去噪轨迹,从而将被动组合分析有效转化为显式布局控制。为了支持系统性的指令跟随组合学习和大规模评估,我们构建了Comp-11数据集,该数据集包含11类分类体系和推理增强型标注。大量实验表明,COMPASS在类别级组合理解方面显著提升,并且相比强基线生成出更符合组合一致性且忠实于提示的结果。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:31

# COMPASS: 将构图意图引导锚定于统一多模态模型

来源:https://arxiv.org/html/2606.28696

11institutetext:爱丁堡大学,英国 22institutetext:多模态人工智能系统国家重点实验室(MAIS),中国科学院自动化研究所,中国 33institutetext:中国科学院大学,中国 44institutetext:蚂蚁集团,中国 全卫泽 通讯作者:*[email protected]* 谭敏 陈智涵 郑丹丹 陈景东 周军 魏东明 严东明

###### 摘要

构图是一种高级视觉意图,它决定了主体的摆放位置和场景的组织方式,然而当前的统一多模态模型在细粒度构图识别上仍不可靠,且难以将这种意图转化为可控生成。我们提出 COMPASS,这是首个在单一系统中同时涵盖构图感知与构图引导生成的统一多模态框架,并以共享专家标记 τ_c 作为中央意图锚点。在感知侧,COMPASS 以最小侵入方式将构图专业知识注入 MoE 骨干网络,并将推断出的意图蒸馏到 τ_c 中。在生成侧,COMPASS 重用 τ_c 作为全局条件信号来引导去噪轨迹,从而将被动的构图分析有效地转化为显式的布局控制。为了支持大规模的系统化指令跟随式构图学习与评估,我们构建了 Comp-11,这是一个包含 11 类分类体系和推理增强标注的大规模数据集。大量实验表明,COMPASS 在类别级构图理解上显著提升,并且相比强基线方法,能够生成构图更一致、更忠实于文本提示的内容。本工作的代码和数据集将在此处发布。

参见图注 图 1:提出的 COMPASS 性能:统一系统处理多种构图理解任务,并进一步使用参考图像作为布局意图,合成忠实于文本提示的新内容。

## 1 引言

视觉构图是摄影的语法,它提供了搭建美学与情感叙事的结构框架。在美学智能领域,这需要两种核心能力协同工作:专家级别的感知能力——即解码场景中刻意安排的几何组织;以及布局引导的创作能力——即合成尊重特定构图模式的新内容。近年来,大型多模态模型(LMMs)[chameleon2024, deng2025emerging, gong2025minglite, emu3_2024, wu2025janus, xie2025showo, zhou2025transfusion] 趋于统一范式,旨在将视觉理解和生成集成到一个单一、连贯的框架中。然而,尽管这些模型在通用推理方面表现出色,但它们难以将构图表示为一种显式、可控的结构。现有的美学期 LMMs [cao2025artimuse, huang2024aesexpert, zhou2024uniaa, cao2025unipercept] 主要强调被动评估和批评,将构图视为众多属性之一,而非可以解析并采取行动的结构化对象。与此同时,关于摄影构图更广泛的文献提出了基于规则的分类法和数据集 [lee2018photographic, zhang2021cadb, zhao2025picd],这强调了构图理解是一种独特的能力,且在通用 LMMs 中仍未得到充分探索。

在这项工作中,我们首次尝试将专家级构图感知和参考引导生成统一在一个连贯的框架中。在生成侧,我们针对一个具有挑战性的场景:给定一张传达构图意图的参考图像和一个描述新语义内容的文本提示,我们旨在生成一张继承参考布局风格但改变内容的图像。这一追求源于纯文本提示的固有限制——语言能高效地描述语义,但对于精确的空间几何而言,它是一个低带宽通道。相比之下,参考照片提供了一个高带宽的空间蓝图。相关的可控生成方法通常依赖于显式的低级控制,如边缘、深度或边界框 [Zhang_2023_ICCV, Li_2023_CVPR, zhang2023layoutdiffusion_iccv],这些方法提供了强空间约束,但未直接编码高级构图规则。更接近本质的是,图像提示编辑和风格迁移方法 [ye2023ipadapter, Chung_2024_CVPR, wang2024instantstyle] 也以参考图像为条件,并旨在将特定因素(例如风格)迁移到新图像;然而,它们常常遭受参考图像的内容泄漏问题。在我们的场景中,目标因素——构图——与图像内容的纠缠甚至更紧密,使得无语义污染的布局迁移变得非常困难。

关键的是,参考引导的构图生成预设了专家感知能力;模型必须在再现参考的结构意图之前先推断出它。然而,在一个统一模型中实现这种双重智能面临着两个特定领域的障碍。在感知侧,挑战是双重的。首先,系统性的构图数据严重匮乏:现有的面向 LMM 的美学数据集 [huang2024aesbench, huang2024aesexpert, zhou2024uniaa, cao2025artimuse, cao2025unipercept] 通常将构图作为广泛美学分析中的一个粗粒度属性,缺乏全面一致的分类体系来涵盖专业摄影中使用的多样化布局模式。其次,通过全参数微调或任务无关的适配器(如 LoRA [hu2022lora])将这种专门知识注入预训练 LMM 很容易导致偏差或覆盖通用推理,除非专业知识被显式地锚定和路由。在生成侧,该任务面临纠缠困境,模型难以从低级内容特征中解缠出高级构图意图。这尤其困难,因为配对数据——具有相同布局但不同语义的图像——很少大规模存在,使得传统的监督式解缠不可行。

为了解决这些挑战,我们提出了 COMPASS,一个通过专家-锚定范式赋予统一 LMM 专业化构图智能的框架。为了克服系统性数据的稀缺性,我们首先构建了 Comp-11,一个专门关注构图的大规模指令数据集。受先前构图数据集 [lee2018photographic, zhang2021cadb] 以及最近突出显示 LMMs 构图局限性的基准 [zhao2025picd] 的启发,Comp-11 特别设计用于指令跟随和可操作的构图理解。在架构方面,我们提出了一种针对构图的混合专家(C-MoE)策略,以实现专家级的构图感知。利用现有的基于 MoE 的骨干网络 [gong2025minglite],我们实例化了一组专用的新专家多层感知器(MLPs),并在训练期间仅优化这些参数。这种方法将构图专业知识注入模型,同时保留了其基础的多模态能力。作为此架构的补充,我们引入了一个单一的可学习专家标记 τ_c 作为模型响应的前缀。在硬构图分类目标的监督下,τ_c 充当显式的意图锚点,激活专业知识并呈现构图决策。

为了在不依赖配对数据的情况下打破生成中的纠缠,我们开创了一种自监督的结构瓶颈策略。我们通过像素化和灰度化对参考图像进行显式的物理解耦,创建一个结构不变量,抑制语义外观同时保留全局布局线索。除了输入端的瓶颈,我们引入了模型侧的机制来抑制参考泄漏,包括一个定制的注意力掩码,防止可学习查询关注被扰乱的图像标记,以及一个交叉注意力细化以确保对文本的忠实度。重用专家标记 τ_c 作为全局条件信号,进一步弥合了被动构图分析与主动、布局可控生成之间的差距,统一在单一系统内。

我们的主要贡献概括如下:(1)我们首次系统性地研究了用于构图智能的统一 LMMs。(2)我们构建了 Comp-11,这是第一个大规模、全面聚焦构图的指令数据集,包含 11 类分类体系,以实现可操作的理解和推理。(3)我们提出了 COMPASS,其特点是一个可学习的前缀标记 τ_c 作为理解和生成任务的共享意图锚点,以及一个自监督的结构瓶颈框架,使得在无需配对训练图像的情况下实现参考引导生成。

参见图注 图 2:我们 Comp-11 分类法的视觉示例。

## 2 相关工作

#### 构图理解与优化。

摄影构图主要从两个互补的角度进行研究:构图理解和构图优化。这些研究方向共同为可控构图生成提供了基础。

第一类研究聚焦于构图理解,旨在建模和量化结构布局。早期方法通常通过基于回归的模型来评估构图质量。通过利用具有专门构图感知标注的数据集(如 CADB [zhang2021cadb]),这些方法孤立了空间排列模式,而不是预测整体美学分数。向更结构化的表述发展,后续研究将构图视为基于规则的分类任务。例如,KU-PCP [lee2018photographic] 根据预定义的构图规则对图像进行分类,同时显式定位关键几何元素。这些工作共同建立了构图识别的定量和可解释范式。

在构图评估的基础上,构图优化侧重于主动增强,主要通过图像裁剪实现。现有方法主要得到两类数据集的支持:密集标注的多个候选裁剪数据集(例如 SACD [yang2023focusing]、UGCrop5K [su2024spatial])和稀疏标注的单一最优裁剪数据集(例如 FCDB [chen-wacv2017])。最近的进展引入了生成式建模以提高鲁棒性,如 GenCrop [hong2024learning] 所体现的,它利用扩散增强。多模态大模型也被引入构图任务;例如,PhotoFramer [you2025photoframer] 采用多模态指令调优,结合示例图像生成构图指导。

尽管取得了这些进展,现有的优化方法——特别是裁剪——本质上局限于作为现有图像的后处理步骤。相比之下,我们的工作超越了这一限制,提供实时指导,直接生成具有理想构图的照片。

#### LMM 美学感知。

最近,多维美学评估越来越多地融入大型多模态模型(LMMs)以增强语义推理和可解释性 [achlioptas2021artemis]。代表性工作——如 AesExpert [huang2024aesexpert]、UNIAA [zhou2024uniaa]、AesBench [huang2024aesbench] 和 UniPercept [cao2025unipercept]——同时生成美学分数和自然语言解释。这种方法促进了跨各种美学属性(包括颜色、光照、主体强调和构图)的统一推理。

然而,在这种范式中,构图主要被视为嵌入整体美学评估中的描述性属性。即使构图方面被显式评估 [cao2025artimuse, huang2024aesexpert],它们也被归入更广泛的语义推理过程,而不是被建模为显式的、可控的构图类别。因此,现有的基于 LMM 的美学感知框架仍然主要是评估性的,无法直接支持构图条件生成。

#### 统一多模态模型。

统一多模态模型旨在将感知和生成集成在一个共享架构中。现有方法大致可分为三种范式。模块化协调框架,如 NExT-GPT [wu2024next],使用大型语言模型来编排外部特定于模态的生成器。虽然灵活,但这些设计依赖于松散耦合的组件,跨模态融合有限。标记级融合模型,包括 SEED-X [ge2024seedx] 和 Chameleon [chameleon2024],通过在自回归变压器中联合建模视觉和文本标记,朝着更紧密的集成迈进,实现了统一的理解和生成。然而,纯粹的自回归建模在高质量图像合成方面往往存在困难。为了解决这个限制,混合统一框架将扩散机制引入建模流程。Transfusion [zhou2025transfusion] 将扩散集成到统一训练中,以平衡语义可控性和合成质量。后续模型,如 Show-o [xie2025showo]、Emu3 [emu3_2024] 和 Janus 系列 [chen2025janus, wu2025janus, ma2024janusflow],进一步扩展了统一架构以支持多任务感知和高质量生成。最近的努力强调可扩展性和系统级细化。VILA-U [wu2024vila] 提高了大规模训练的多模态对齐效率,而 BAGEL [deng2025emerging] 和 Ming-Lite-Uni [gong2025minglite] 探索了可扩展且轻量级的统一建模策略。

尽管架构统一,现有模型主要优化模态对齐、生成质量和训练可扩展性 [transformervisual]。细粒度的结构因素——比如摄影构图——很少被视为显式的、可控的建模目标。因此,虽然统一多模态架构为集成感知和生成提供了强大的骨干,但它们缺乏用于结构感知和构图条件合成的专用机制。

参见图注 图 3:Comp-11 的数据构建流程。

## 3 数据集

我们介绍 Comp-11,这是一个用于统一 LMMs 中构图感知和生成的大规模数据集。Comp-11 建立在 11 类构图分类法之上,并进一步增强了指令跟随和面向推理的多模态标注。

#### 构图分类法。

我们从现有的构图分类数据集 KU-PCP [lee2018photographic] 和 CADB [zhang2021cadb] 中整合构图概念,形成一个统一的分类法,包含 C=11 个常用类别,我们将其作为数据集的标签集。具体来说,分类法包括三分法(RoT)、中心、水平、对称、对角线、曲线、垂直、三角形、图案、引导线和填充画面。我们在图 2 (https://arxiv.org/html/2606.28696#S1.F2) 中提供了所有 11 个类别的定性可视化示例。精确的操作定义和标注指南将在补充材料中提供。

#### 数据构建流程

基于我们的 11 类分类法,我们开发了一个严格的流程,包括三个阶段:数据准备、专家标注与细化以及 LMM 增强(图 3 (https://arxiv.org/html/2606.28696#S2.F3))。

*数据准备*

相似文章

多智能体种群中有根据的组合语言的出现

OpenAI Blog

# 多智能体种群中有根据的组合语言的出现 来源: [https://openai.com/index/emergence-of-grounded-compositional-language-in-multi-agent-populations/](https://openai.com/index/emergence-of-grounded-compositional-language-in-multi-agent-populations/) ## 摘要 通过捕捉大型语料库中的统计模式,机器学习在自然语言处理领域取得了重大进展,包括在机器翻译、问答和情感分析方面的应用

在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers

本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。