迈向原生多模态建模:路线图
摘要
本文提出了一份正式的路线图,用于从晚期融合多模态方法向统一Transformer框架内的原生多模态建模(NMM)转型,根据输入-输出对偶性对现有模型进行分类,并系统性地讨论了架构协调、数据整理、训练方案和评估。
查看缓存全文
缓存时间: 2026/05/26 06:43
论文页面 - 走向原生多模态建模:一份路线图
来源:https://huggingface.co/papers/2605.25343 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
原生多模态建模超越了传统融合方法,通过将多种模态固有地集成到统一的 Transformer 框架中,实现了跨各种输入输出配置的无缝理解与生成。
多模态建模 (https://huggingface.co/papers?q=Multimodal%20modeling) 是从模态无关推理迈向世界建模的关键一步。早期方法主要依赖 晚期融合 (https://huggingface.co/papers?q=late-fusion),即组装编码器、冻结的语言骨干网络和输出头;而近期的努力已将范式转向 原生多模态建模 (https://huggingface.co/papers?q=native%20multimodal%20modeling) (NMM),通过模态的内在集成实现更优的多模态性能。尽管潜力巨大,但原生架构的设计空间仍缺乏明确定义。本文向社区提供了一份规范化的路线图,以指导这一转型。具体而言,我们正式定义了 架构原生性 (https://huggingface.co/papers?q=architectural%20nativity),区分了 中期融合 (https://huggingface.co/papers?q=mid-fusion) 和 早期融合 (https://huggingface.co/papers?q=early-fusion) 与非原生范式。我们进一步通过 输入输出对偶性 (https://huggingface.co/papers?q=input-output%20duality) 的视角,将现有的原生模型组织为三类:(i) 多到文本——用于 跨模态理解 (https://huggingface.co/papers?q=cross-modal%20comprehension),输出仅为文本;(ii) 多到目标——用于 场景导向生成 (https://huggingface.co/papers?q=scenario-oriented%20generation),例如图像、音频和视频生成;(iii) 多到多——用于 统一建模 (https://huggingface.co/papers?q=unified%20modeling),输入输出对称。我们对向着最终 NMM 框架(即理解与生成无缝共存于统一的 Transformer 范式 (https://huggingface.co/papers?q=transformer%20paradigm) 中)的转型进行了全面且工业级的探讨。我们从产业视角系统地拆解了端到端流程,涵盖架构协调、大规模数据策展、全栈训练配方、推理与部署,以及对真正原生建模的全面评估。
查看 arXiv 页面 (https://arxiv.org/abs/2605.25343) 查看 PDF (https://arxiv.org/pdf/2605.25343) 项目页面 (https://nmm-roadmap.github.io/) GitHub2 (https://github.com/NMM-Roadmap/Awesome-NMM-List) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.25343)
在你的智能体中获取此论文:
hf papers read 2605\.25343
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接此论文的模型
请在模型的 README.md 中引用 arxiv.org/abs/2605.25343,以在此页面建立链接。
引用此论文的数据集 0
没有链接此论文的数据集
请在数据集的 README.md 中引用 arxiv.org/abs/2605.25343,以在此页面建立链接。
引用此论文的 Spaces 0
没有链接此论文的 Space
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.25343,以在此页面建立链接。
包含此论文的收藏集 0
没有包含此论文的收藏集
请将此论文添加至 收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。
相似文章
MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调
论文页面 - MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调 来源:[https://huggingface.co/papers/2604.16943](https://huggingface.co/papers/2604.16943) 发布日期:4月18日 · 提交者 [https://huggingface.co/liboaccn](https://huggingface.co/liboaccn) [](https://huggingface.co/liboaccn) [Bo Li](https://huggingface.co/liboaccn)
EVA01:通过混合变换器实现统一原生3D理解与生成
EVA01是一个统一框架,通过混合变换器架构将3D网格作为原生模态集成到多模态语言模型中,实现了先进的文本到3D生成以及长上下文多轮几何编辑。
从多模态经验中学会学习
本文介绍了AutoMMemo,一个使多模态智能体能够自动设计记忆机制(可表达为可执行的备忘录程序)以从多模态交互轨迹中学习的框架,在GUI/Web导航和视觉推理基准上优于无记忆和固定记忆基线。
视觉的代价:在单一范式中实现可信的多模态推理
本文挑战了当前视觉语言模型忠实地融合多模态数据的假设,提出了一种基于信息论的 Modality Translation Protocol,并引入了新指标(Toll、Curse、Fallacy of Seeing)来评估可信度,而非传统的多模态增益。
模型原生计算架构:通过计算机架构视角展望未来系统架构
本文提出了一种模型原生计算架构,通过计算机架构的视角展望未来系统设计。