迈向原生多模态建模：路线图

Hugging Face Daily Papers 2026/05/25 00:00 论文

multimodal native-multimodal-modeling roadmap transformer fusion survey

摘要

本文提出了一份正式的路线图，用于从晚期融合多模态方法向统一Transformer框架内的原生多模态建模（NMM）转型，根据输入-输出对偶性对现有模型进行分类，并系统性地讨论了架构协调、数据整理、训练方案和评估。

多模态建模是从模态无关推理走向世界建模的关键一步。早期方法主要依赖晚期融合，即组合编码器、冻结的语言骨干网络和输出头。而近年来的工作则将范式转向原生多模态建模（NMM），通过模态的内在集成来实现更优的多模态性能。尽管潜力巨大，原生架构的设计空间仍未被充分定义。在本文中，我们向社区呈现了一份正式化的转型路线图。具体而言，我们正式定义了架构的原生性，将中期融合和早期融合与非原生范式区分开来。我们进一步通过输入-输出对偶性的视角，将现有的原生模型组织为三类：(i) 多对文本（Multi-to-Text）——用于跨模态理解，输出仅为文本；(ii) 多对目标（Multi-to-Target）——用于场景导向的生成，例如图像、音频和视频生成；(iii) 多对多（Multi-to-Multi）——用于对称输入-输出的统一建模。我们对向最终NMM框架的转型进行了全面且工业级的调研，在该框架中，理解和生成在统一的Transformer范式中无缝共存。我们从工业视角系统地拆解了端到端管线，涵盖架构协调、大规模数据整理、全栈训练方案、推理与部署，以及真正原生建模的全面评估。

查看原文

查看缓存全文

缓存时间: 2026/05/26 06:43

论文页面 - 走向原生多模态建模：一份路线图

来源：https://huggingface.co/papers/2605.25343 作者：

摘要

原生多模态建模超越了传统融合方法，通过将多种模态固有地集成到统一的 Transformer 框架中，实现了跨各种输入输出配置的无缝理解与生成。

多模态建模 (https://huggingface.co/papers?q=Multimodal%20modeling) 是从模态无关推理迈向世界建模的关键一步。早期方法主要依赖晚期融合 (https://huggingface.co/papers?q=late-fusion)，即组装编码器、冻结的语言骨干网络和输出头；而近期的努力已将范式转向原生多模态建模 (https://huggingface.co/papers?q=native%20multimodal%20modeling) (NMM)，通过模态的内在集成实现更优的多模态性能。尽管潜力巨大，但原生架构的设计空间仍缺乏明确定义。本文向社区提供了一份规范化的路线图，以指导这一转型。具体而言，我们正式定义了架构原生性 (https://huggingface.co/papers?q=architectural%20nativity)，区分了中期融合 (https://huggingface.co/papers?q=mid-fusion) 和早期融合 (https://huggingface.co/papers?q=early-fusion) 与非原生范式。我们进一步通过输入输出对偶性 (https://huggingface.co/papers?q=input-output%20duality) 的视角，将现有的原生模型组织为三类：(i) 多到文本——用于跨模态理解 (https://huggingface.co/papers?q=cross-modal%20comprehension)，输出仅为文本；(ii) 多到目标——用于场景导向生成 (https://huggingface.co/papers?q=scenario-oriented%20generation)，例如图像、音频和视频生成；(iii) 多到多——用于统一建模 (https://huggingface.co/papers?q=unified%20modeling)，输入输出对称。我们对向着最终 NMM 框架（即理解与生成无缝共存于统一的 Transformer 范式 (https://huggingface.co/papers?q=transformer%20paradigm) 中）的转型进行了全面且工业级的探讨。我们从产业视角系统地拆解了端到端流程，涵盖架构协调、大规模数据策展、全栈训练配方、推理与部署，以及对真正原生建模的全面评估。

查看 arXiv 页面 (https://arxiv.org/abs/2605.25343) 查看 PDF (https://arxiv.org/pdf/2605.25343) 项目页面 (https://nmm-roadmap.github.io/) GitHub2 (https://github.com/NMM-Roadmap/Awesome-NMM-List) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.25343)

在你的智能体中获取此论文：

hf papers read 2605\.25343

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

请在模型的 README.md 中引用 arxiv.org/abs/2605.25343，以在此页面建立链接。

引用此论文的数据集 0

没有链接此论文的数据集

请在数据集的 README.md 中引用 arxiv.org/abs/2605.25343，以在此页面建立链接。

引用此论文的 Spaces 0

没有链接此论文的 Space

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.25343，以在此页面建立链接。

包含此论文的收藏集 0

没有包含此论文的收藏集

请将此论文添加至收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。

相似文章

MNAFT：用于图像翻译的多模态大语言模型模态神经元感知微调

Hugging Face Daily Papers

论文页面 - MNAFT：用于图像翻译的多模态大语言模型模态神经元感知微调来源：[https://huggingface.co/papers/2604.16943](https://huggingface.co/papers/2604.16943) 发布日期：4月18日 · 提交者 [https://huggingface.co/liboaccn](https://huggingface.co/liboaccn) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/6582c482f3006507ea10302a/KbgSsq0FnbMngBcWPhIXi.jpeg)](https://huggingface.co/liboaccn) [Bo Li](https://huggingface.co/liboaccn)

迈向原生多模态建模：路线图

论文页面 - 走向原生多模态建模：一份路线图

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

MNAFT：用于图像翻译的多模态大语言模型模态神经元感知微调

EVA01：通过混合变换器实现统一原生3D理解与生成

从多模态经验中学会学习

视觉的代价：在单一范式中实现可信的多模态推理

模型原生计算架构：通过计算机架构视角展望未来系统架构

提交意见反馈