MMCORE:多模态连接与表征对齐的潜在嵌入

Hugging Face Daily Papers 论文

摘要

MMCORE 提出一个统一的多模态图像生成与编辑框架,将 VLM 语义嵌入与扩散条件对齐,无需昂贵融合或从零训练即可实现顶尖保真度。

我们提出 MMCORE,一个面向多模态图像生成与编辑的统一框架。MMCORE 利用预训练视觉-语言模型(VLM),通过可学习查询令牌预测语义视觉嵌入,再将其作为扩散模型的条件信号。这一简洁设计把 VLM 的丰富理解与推理能力高效迁移到视觉生成过程。无需在自回归与扩散模型间做深度融合,也无需从头训练,MMCORE 在大幅降低计算开销的同时保持高保真合成。 MMCORE 无缝整合文本到图像生成与交错图像生成,在空间推理、视觉定位等复杂场景中展现稳健的多模态理解。全面评估显示,MMCORE 在广泛的文本到图像及单张/多张图像编辑基准上持续优于现有最佳基线。
查看原文
查看缓存全文

缓存时间: 2026/04/23 03:35

论文页面 - MMCORE:基于表示对齐潜在嵌入的多模态连接

来源:https://huggingface.co/papers/2604.19902
作者:,,,,,,,,,

摘要

MMCORE 是一个统一的多模态图像生成与编辑框架,利用预训练的视觉-语言模型预测语义视觉嵌入,作为扩散模型的条件信号,实现高效、高保真的视觉合成。

我们提出 MMCORE,一个面向多模态图像生成(https://huggingface.co/papers?q=image%20generation)与编辑的统一框架。MMCORE 借助预训练的视觉-语言模型(https://huggingface.co/papers?q=Vision-Language%20Model)(VLM),通过可学习的查询令牌(https://huggingface.co/papers?q=learnable%20query%20tokens)预测语义视觉嵌入(https://huggingface.co/papers?q=semantic%20visual%20embeddings),随后将其作为扩散模型(https://huggingface.co/papers?q=diffusion%20model)的条件信号。这一简洁设计把 VLM 丰富的理解与推理能力高效迁移到视觉生成过程。无需在自回归模型与扩散模型之间做深层融合,也无需从头训练,MMCORE 显著降低计算开销,同时保持高保真合成(https://huggingface.co/papers?q=high-fidelity%20synthesis)。MMCORE 无缝整合文本到图像合成(https://huggingface.co/papers?q=text-to-image%20synthesis)与交错图像生成(https://huggingface.co/papers?q=image%20generation),在空间推理和视觉定位(https://huggingface.co/papers?q=visual%20grounding)等复杂场景中展现稳健的多模态理解(https://huggingface.co/papers?q=multimodal%20comprehension)。全面评估表明,MMCORE 在广泛的文本到图像及单/多图像编辑基准上持续优于最先进基线。

查看 arXiv 页面(https://arxiv.org/abs/2604.19902)
查看 PDF(https://arxiv.org/pdf/2604.19902)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19902)

在智能体中获取该论文:

hf papers read 2604.19902

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.19902 即可在此页面显示。

引用该论文的数据集 0

暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19902 即可在此页面显示。

引用该论文的 Spaces 0

暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.19902 即可在此页面显示。

收录该论文的合集 0

暂无合集收录此论文
将该论文添加到合集(https://huggingface.co/new-collection)即可在此页面显示。

相似文章

面向主体驱动生成的多模态大语言模型能力挖掘

Hugging Face Daily Papers

本文提出了一种新颖的方法,将扩散模型以多模态大语言模型(MLLMs)为条件,用于主体驱动图像生成,使用基于VAE的身份条件化和双层聚合模块,提高语义理解和身份保持,同时减轻复制粘贴伪影。

在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers

本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。

LongMoE:基于轨迹感知的混合专家模型的纵向多模态学习

arXiv cs.LG

LongMoE提出了一个统一框架,同时解决多模态临床学习中的模态缺失和纵向动态问题,利用上下文感知插补、注意力令牌化、轨迹感知编码和稀疏混合专家路由。在ADNI、OASIS-3和MIMIC-IV上的实验表明,在缺失模态情况下鲁棒性得到提升,同时在完整模态设置下仍具有竞争力。