迈向原生多模态建模:路线图

Hugging Face Daily Papers 论文

摘要

本文提出了一份正式的路线图,用于从晚期融合多模态方法向统一Transformer框架内的原生多模态建模(NMM)转型,根据输入-输出对偶性对现有模型进行分类,并系统性地讨论了架构协调、数据整理、训练方案和评估。

多模态建模是从模态无关推理走向世界建模的关键一步。早期方法主要依赖晚期融合,即组合编码器、冻结的语言骨干网络和输出头。而近年来的工作则将范式转向原生多模态建模(NMM),通过模态的内在集成来实现更优的多模态性能。尽管潜力巨大,原生架构的设计空间仍未被充分定义。在本文中,我们向社区呈现了一份正式化的转型路线图。具体而言,我们正式定义了架构的原生性,将中期融合和早期融合与非原生范式区分开来。我们进一步通过输入-输出对偶性的视角,将现有的原生模型组织为三类:(i) 多对文本(Multi-to-Text)——用于跨模态理解,输出仅为文本;(ii) 多对目标(Multi-to-Target)——用于场景导向的生成,例如图像、音频和视频生成;(iii) 多对多(Multi-to-Multi)——用于对称输入-输出的统一建模。我们对向最终NMM框架的转型进行了全面且工业级的调研,在该框架中,理解和生成在统一的Transformer范式中无缝共存。我们从工业视角系统地拆解了端到端管线,涵盖架构协调、大规模数据整理、全栈训练方案、推理与部署,以及真正原生建模的全面评估。
查看原文
查看缓存全文

缓存时间: 2026/05/26 06:43

论文页面 - 走向原生多模态建模:一份路线图

来源:https://huggingface.co/papers/2605.25343 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

原生多模态建模超越了传统融合方法,通过将多种模态固有地集成到统一的 Transformer 框架中,实现了跨各种输入输出配置的无缝理解与生成。

多模态建模 (https://huggingface.co/papers?q=Multimodal%20modeling) 是从模态无关推理迈向世界建模的关键一步。早期方法主要依赖 晚期融合 (https://huggingface.co/papers?q=late-fusion),即组装编码器、冻结的语言骨干网络和输出头;而近期的努力已将范式转向 原生多模态建模 (https://huggingface.co/papers?q=native%20multimodal%20modeling) (NMM),通过模态的内在集成实现更优的多模态性能。尽管潜力巨大,但原生架构的设计空间仍缺乏明确定义。本文向社区提供了一份规范化的路线图,以指导这一转型。具体而言,我们正式定义了 架构原生性 (https://huggingface.co/papers?q=architectural%20nativity),区分了 中期融合 (https://huggingface.co/papers?q=mid-fusion) 和 早期融合 (https://huggingface.co/papers?q=early-fusion) 与非原生范式。我们进一步通过 输入输出对偶性 (https://huggingface.co/papers?q=input-output%20duality) 的视角,将现有的原生模型组织为三类:(i) 多到文本——用于 跨模态理解 (https://huggingface.co/papers?q=cross-modal%20comprehension),输出仅为文本;(ii) 多到目标——用于 场景导向生成 (https://huggingface.co/papers?q=scenario-oriented%20generation),例如图像、音频和视频生成;(iii) 多到多——用于 统一建模 (https://huggingface.co/papers?q=unified%20modeling),输入输出对称。我们对向着最终 NMM 框架(即理解与生成无缝共存于统一的 Transformer 范式 (https://huggingface.co/papers?q=transformer%20paradigm) 中)的转型进行了全面且工业级的探讨。我们从产业视角系统地拆解了端到端流程,涵盖架构协调、大规模数据策展、全栈训练配方、推理与部署,以及对真正原生建模的全面评估。

查看 arXiv 页面 (https://arxiv.org/abs/2605.25343) 查看 PDF (https://arxiv.org/pdf/2605.25343) 项目页面 (https://nmm-roadmap.github.io/) GitHub2 (https://github.com/NMM-Roadmap/Awesome-NMM-List) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.25343)

在你的智能体中获取此论文:

hf papers read 2605\.25343

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

请在模型的 README.md 中引用 arxiv.org/abs/2605.25343,以在此页面建立链接。

引用此论文的数据集 0

没有链接此论文的数据集

请在数据集的 README.md 中引用 arxiv.org/abs/2605.25343,以在此页面建立链接。

引用此论文的 Spaces 0

没有链接此论文的 Space

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.25343,以在此页面建立链接。

包含此论文的收藏集 0

没有包含此论文的收藏集

请将此论文添加至 收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。

相似文章

MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调

Hugging Face Daily Papers

论文页面 - MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调 来源:[https://huggingface.co/papers/2604.16943](https://huggingface.co/papers/2604.16943) 发布日期:4月18日 · 提交者 [https://huggingface.co/liboaccn](https://huggingface.co/liboaccn) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/6582c482f3006507ea10302a/KbgSsq0FnbMngBcWPhIXi.jpeg)](https://huggingface.co/liboaccn) [Bo Li](https://huggingface.co/liboaccn)

从多模态经验中学会学习

arXiv cs.AI

本文介绍了AutoMMemo,一个使多模态智能体能够自动设计记忆机制(可表达为可执行的备忘录程序)以从多模态交互轨迹中学习的框架,在GUI/Web导航和视觉推理基准上优于无记忆和固定记忆基线。

视觉的代价:在单一范式中实现可信的多模态推理

Hugging Face Daily Papers

本文挑战了当前视觉语言模型忠实地融合多模态数据的假设,提出了一种基于信息论的 Modality Translation Protocol,并引入了新指标(Toll、Curse、Fallacy of Seeing)来评估可信度,而非传统的多模态增益。