无瓶颈统一多模态模型的 Representation Forcing
摘要
介绍了 Representation Forcing(RF),一种技术,使得统一多模态模型能够在没有外部VAE潜在空间的情况下端到端地执行感知和生成,在图像生成方面达到最先进的基于VAE的模型水平,同时提升理解能力。
查看缓存全文
缓存时间: 2026/06/01 03:18
论文页面 - Representation Forcing 用于无瓶颈统一多模态模型
来源:https://huggingface.co/papers/2605.31604 发布于 5 月 29 日
#3 当日论文 (https://huggingface.co/papers/date/2026-06-01) 作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
Representation Forcing 使统一多模态模型能够在无需依赖外部潜在空间的情况下端到端地执行感知和生成任务,在图像生成方面达到最先进性能,同时提升理解能力。
统一多模态模型 (https://huggingface.co/papers?q=Unified%20multimodal%20models)(UMM)旨在用单一模型处理感知与生成。然而,现有 UMM 仍然依赖一个冻结的、独立预训练的 VAE 进行图像生成,形成了结构性瓶颈。直接移除它会导致质量差距,因为模型必须从原始像素同时学习高层结构和低层细节。本文提出 Representation Forcing (https://huggingface.co/papers?q=Representation%20Forcing)(RF),一种通过使表示预测成为模型原生能力来弥合这一差距的技术。具体来说,RF 强制解码器在像素之前自回归地预测视觉表示 (https://huggingface.co/papers?q=visual%20representations) 作为中间令牌;这些令牌随后保持在上下文中,在同一骨干网络内引导像素扩散 (https://huggingface.co/papers?q=pixel%20diffusion)。通过将表示从感知输出转变为生成目标,RF 消除了对外部生成潜在空间的需求。我们发现 RF 对理解和生成均有裨益。在图像生成上,我们的像素空间模型配合 RF 达到了基于 VAE 的最先进统一模型的水平。在图像理解上,像素空间 RF 通常优于其基于 VAE 的变体。这些结果共同为迈向端到端、无瓶颈的 UMM 提供了有效的一步。
查看 arXiv 页面 (https://arxiv.org/abs/2605.31604) 查看 PDF (https://arxiv.org/pdf/2605.31604) 项目页面 (https://yuqingwang1029.github.io/RepresentationForcing/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31604)
在您的 agent 中获取此论文:
hf papers read 2605\.31604
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.31604 以从此页面链接。
引用此论文的数据集 0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.31604 以从此页面链接。
引用此论文的 Space 0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.31604 以从此页面链接。
包含此论文的收藏集 0
无收藏集包含此论文
将本文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
如何在macOS上设置本地编码代理
一份关于在macOS上使用Gemma 4与MTP草稿模型及llama.cpp设置本地编码代理的详细教程,通过投机解码实现了约24%的速度提升。
@GitHub_Daily: 想深入研究模型,不能只停留在应用层,需要弄懂底层系统是如何训练和优化的。 偶然发现 LLMSys-PaperList,这份精心整理了大模型系统相关的论文合集。 从 2022 年一直更新到 2026 年最新的顶会论文,并按训练、推理、多模态…
一个精心整理的大模型系统相关论文合集,涵盖训练、推理、多模态等方向,持续更新并收录了技术报告、框架和课程,适合研究人员和开发者参考。
APCyc:通过自动化环化进行性质导向的环肽设计
APCyc是一个靶点感知的生成框架,通过显式建模环化模式并利用贝叶斯后验引导,设计具有可控理化性质的环肽。
PRISMR: 通过参数化表征内化克服多模态列表排序中的解析崩溃
PRISMR 提出了一种使用超网络和 LoRA 内化列表结构的框架,克服了多模态列表排序中的解析崩溃。它引入了一个大规模基准,并展示了在多个领域和骨干网络上的解析崩溃减少和排序性能提升。
MLUBench: 多模态大语言模型终身遗忘评估基准
MLUBench 是一个大规模的多模态大语言模型终身遗忘基准,包含9个类别的127个实体。论文指出现有遗忘方法存在累积退化问题,并提出 LUMoE 来缓解此问题,显示出显著改进。