无瓶颈统一多模态模型的 Representation Forcing

Hugging Face Daily Papers 论文

摘要

介绍了 Representation Forcing(RF),一种技术,使得统一多模态模型能够在没有外部VAE潜在空间的情况下端到端地执行感知和生成,在图像生成方面达到最先进的基于VAE的模型水平,同时提升理解能力。

统一多模态模型(UMMs)旨在用单一模型处理感知和生成任务。然而,现有的UMMs仍然依赖一个冻结的、单独预训练的VAE进行图像生成,这造成了结构上的瓶颈。简单移除它会导致质量差距,因为模型必须从原始像素中同时学习高层结构和低层细节。本文提出了 Representation Forcing(RF),一种通过将表示预测变为模型原生能力来弥合这一差距的技术。具体而言,RF迫使解码器在像素之前自回归地预测视觉表示作为中间标记;这些标记随后保持在上下文中,以在同一骨干网络内引导像素扩散。通过将表示从感知输出转变为生成目标,RF消除了对外部生成潜在空间的需求。我们发现RF对理解和生成都有益。在图像生成方面,我们采用RF的像素空间模型达到了与最先进的基于VAE的统一模型相同的水平。在图像理解方面,像素空间RF通常优于其基于VAE的变体。这些结果共同为实现端到端、无瓶颈的UMMs迈出了有效的一步。
查看原文
查看缓存全文

缓存时间: 2026/06/01 03:18

论文页面 - Representation Forcing 用于无瓶颈统一多模态模型

来源:https://huggingface.co/papers/2605.31604 发布于 5 月 29 日

#3 当日论文 (https://huggingface.co/papers/date/2026-06-01) 作者:

,

,

,

,

,

,

,

,

,

,

,

摘要

Representation Forcing 使统一多模态模型能够在无需依赖外部潜在空间的情况下端到端地执行感知和生成任务,在图像生成方面达到最先进性能,同时提升理解能力。

统一多模态模型 (https://huggingface.co/papers?q=Unified%20multimodal%20models)(UMM)旨在用单一模型处理感知与生成。然而,现有 UMM 仍然依赖一个冻结的、独立预训练的 VAE 进行图像生成,形成了结构性瓶颈。直接移除它会导致质量差距,因为模型必须从原始像素同时学习高层结构和低层细节。本文提出 Representation Forcing (https://huggingface.co/papers?q=Representation%20Forcing)(RF),一种通过使表示预测成为模型原生能力来弥合这一差距的技术。具体来说,RF 强制解码器在像素之前自回归地预测视觉表示 (https://huggingface.co/papers?q=visual%20representations) 作为中间令牌;这些令牌随后保持在上下文中,在同一骨干网络内引导像素扩散 (https://huggingface.co/papers?q=pixel%20diffusion)。通过将表示从感知输出转变为生成目标,RF 消除了对外部生成潜在空间的需求。我们发现 RF 对理解和生成均有裨益。在图像生成上,我们的像素空间模型配合 RF 达到了基于 VAE 的最先进统一模型的水平。在图像理解上,像素空间 RF 通常优于其基于 VAE 的变体。这些结果共同为迈向端到端、无瓶颈的 UMM 提供了有效的一步。

查看 arXiv 页面 (https://arxiv.org/abs/2605.31604) 查看 PDF (https://arxiv.org/pdf/2605.31604) 项目页面 (https://yuqingwang1029.github.io/RepresentationForcing/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31604)

在您的 agent 中获取此论文:

hf papers read 2605\.31604

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.31604 以从此页面链接。

引用此论文的数据集 0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.31604 以从此页面链接。

引用此论文的 Space 0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.31604 以从此页面链接。

包含此论文的收藏集 0

无收藏集包含此论文

将本文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

如何在macOS上设置本地编码代理

Hacker News Top

一份关于在macOS上使用Gemma 4与MTP草稿模型及llama.cpp设置本地编码代理的详细教程,通过投机解码实现了约24%的速度提升。

@GitHub_Daily: 想深入研究模型,不能只停留在应用层,需要弄懂底层系统是如何训练和优化的。 偶然发现 LLMSys-PaperList,这份精心整理了大模型系统相关的论文合集。 从 2022 年一直更新到 2026 年最新的顶会论文,并按训练、推理、多模态…

X AI KOLs Timeline

一个精心整理的大模型系统相关论文合集,涵盖训练、推理、多模态等方向,持续更新并收录了技术报告、框架和课程,适合研究人员和开发者参考。

MLUBench: 多模态大语言模型终身遗忘评估基准

arXiv cs.AI

MLUBench 是一个大规模的多模态大语言模型终身遗忘基准,包含9个类别的127个实体。论文指出现有遗忘方法存在累积退化问题,并提出 LUMoE 来缓解此问题,显示出显著改进。