MMCORE：多模态连接与表征对齐的潜在嵌入

Hugging Face Daily Papers 2026/04/21 00:00 论文

摘要

MMCORE 提出一个统一的多模态图像生成与编辑框架，将 VLM 语义嵌入与扩散条件对齐，无需昂贵融合或从零训练即可实现顶尖保真度。

我们提出 MMCORE，一个面向多模态图像生成与编辑的统一框架。MMCORE 利用预训练视觉-语言模型（VLM），通过可学习查询令牌预测语义视觉嵌入，再将其作为扩散模型的条件信号。这一简洁设计把 VLM 的丰富理解与推理能力高效迁移到视觉生成过程。无需在自回归与扩散模型间做深度融合，也无需从头训练，MMCORE 在大幅降低计算开销的同时保持高保真合成。 MMCORE 无缝整合文本到图像生成与交错图像生成，在空间推理、视觉定位等复杂场景中展现稳健的多模态理解。全面评估显示，MMCORE 在广泛的文本到图像及单张/多张图像编辑基准上持续优于现有最佳基线。

查看原文

查看缓存全文

缓存时间: 2026/04/23 03:35

论文页面 - MMCORE：基于表示对齐潜在嵌入的多模态连接

来源：https://huggingface.co/papers/2604.19902
作者：,,,,,,,,,

摘要

MMCORE 是一个统一的多模态图像生成与编辑框架，利用预训练的视觉-语言模型预测语义视觉嵌入，作为扩散模型的条件信号，实现高效、高保真的视觉合成。

我们提出 MMCORE，一个面向多模态图像生成（https://huggingface.co/papers?q=image%20generation）与编辑的统一框架。MMCORE 借助预训练的视觉-语言模型（https://huggingface.co/papers?q=Vision-Language%20Model）（VLM），通过可学习的查询令牌（https://huggingface.co/papers?q=learnable%20query%20tokens）预测语义视觉嵌入（https://huggingface.co/papers?q=semantic%20visual%20embeddings），随后将其作为扩散模型（https://huggingface.co/papers?q=diffusion%20model）的条件信号。这一简洁设计把 VLM 丰富的理解与推理能力高效迁移到视觉生成过程。无需在自回归模型与扩散模型之间做深层融合，也无需从头训练，MMCORE 显著降低计算开销，同时保持高保真合成（https://huggingface.co/papers?q=high-fidelity%20synthesis）。MMCORE 无缝整合文本到图像合成（https://huggingface.co/papers?q=text-to-image%20synthesis）与交错图像生成（https://huggingface.co/papers?q=image%20generation），在空间推理和视觉定位（https://huggingface.co/papers?q=visual%20grounding）等复杂场景中展现稳健的多模态理解（https://huggingface.co/papers?q=multimodal%20comprehension）。全面评估表明，MMCORE 在广泛的文本到图像及单/多图像编辑基准上持续优于最先进基线。

查看 arXiv 页面（https://arxiv.org/abs/2604.19902）
查看 PDF（https://arxiv.org/pdf/2604.19902）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.19902）

在智能体中获取该论文：

hf papers read 2604.19902

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2604.19902 即可在此页面显示。

引用该论文的数据集 0

暂无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19902 即可在此页面显示。

引用该论文的 Spaces 0

暂无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2604.19902 即可在此页面显示。

收录该论文的合集 0

暂无合集收录此论文
将该论文添加到合集（https://huggingface.co/new-collection）即可在此页面显示。

MMCORE：多模态连接与表征对齐的潜在嵌入

论文页面 - MMCORE：基于表示对齐潜在嵌入的多模态连接

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 0

相似文章

面向主体驱动生成的多模态大语言模型能力挖掘

GoCoMA：基于双曲 Poincaré 球嵌入的大语言模型生成代码溯源多模态表征融合

在统一的多模态理解与生成中唤醒空间智能

LongMoE：基于轨迹感知的混合专家模型的纵向多模态学习

MACS: 面向高效多模态MoE推理的模态感知容量缩放

提交意见反馈