UniPath: 统一多模态推理中理解与生成的适应性协调
摘要
UniPath 提出了一种框架,用于统一多模态模型中理解与生成的适应性协调,利用协调路径多样性来提升相对于固定策略的性能。
查看缓存全文
缓存时间: 2026/05/13 16:13
论文页面 - UniPath:面向统一多模态推理的理解与生成自适应协调
来源:https://huggingface.co/papers/2605.11400
摘要
统一多模态模型可以通过自适应选择协调路径而非采用固定模式来提升性能,从而针对不同输入实现多样化的推理策略。
统一多模态模型(https://huggingface.co/papers?q=Unified%20multimodal%20models)(UMMs)旨在将理解与生成能力整合到单一架构中。然而,如何有效协调这两种能力以进行更高效、更有效的推理,仍是一个有待探索的问题。现有的协调方法要么在训练阶段进行耦合,缺乏推理阶段的显式协调,要么对所有输入施加固定的协调模式。在这项工作中,我们展示了多模态任务具有显著的协调路径多样性(https://huggingface.co/papers?q=coordination-path%20diversity):不同输入倾向于采用不同的协调路径。这表明利用这种多样性是提升性能的关键。我们提出了UniPath框架,用于自适应地建模和利用协调路径多样性(https://huggingface.co/papers?q=coordination-path%20diversity)。我们不强制使用单一协调模式,而是将任务求解表示为选择并执行一条路径,路径范围从直接回答到文本推理、视觉思维构建以及基于假设的探索。我们构建了角色对齐轨迹(https://huggingface.co/papers?q=role-aligned%20trajectories)来训练路径条件执行器(https://huggingface.co/papers?q=path-conditioned%20executor),并引入了一种轻量级规划器(https://huggingface.co/papers?q=lightweight%20planner)机制来实现基于输入的路径选择。实验表明,利用协调路径多样性(https://huggingface.co/papers?q=coordination-path%20diversity)相较于固定协调策略能提升性能,同时提供可解释的中间行为。代码已开源在:https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath。
查看 arXiv 页面(https://arxiv.org/abs/2605.11400)查看 PDF(https://arxiv.org/pdf/2605.11400)项目页面(https://github.com/AIFrontierLab/TorchUMM)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.11400)
在你的 agent 中获取本文:
hf papers read 2605.11400
还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型(0)
没有模型链接本文
请在模型 README.md 中引用 arxiv.org/abs/2605.11400 以从本页面链接。
引用本文的数据集(0)
没有数据集链接本文
请在数据集 README.md 中引用 arxiv.org/abs/2605.11400 以从本页面链接。
引用本文的 Spaces(0)
没有 Space 链接本文
请在 Space README.md 中引用 arxiv.org/abs/2605.11400 以从本页面链接。
包含本文的收藏夹(0)
没有收藏夹包含本文
请将本文添加到一个收藏夹(https://huggingface.co/new-collection)中以从本页面链接。
相似文章
通过理解监督引导统一多模态模型中的视觉生成
本文介绍了 UNO,这是一种以理解为导向的后训练框架,利用理解任务作为监督信号,以增强统一多模态模型中的图像生成和编辑能力。
UniVidX:基于扩散先验的多功能视频生成统一多模态框架
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。
在统一的多模态理解与生成中唤醒空间智能
本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。
UniMesh:统一3D网格理解与生成
UniMesh通过单一模型,借助Mesh Head、链式网格迭代编辑和自省纠错机制,同时完成3D网格生成与理解任务。
面向模态异质性下的鲁棒联邦多模态图学习
本文提出FedMPO,一种鲁棒的联邦多模态图学习方法,通过拓扑感知的跨模态生成、缺失感知的专家路由和可靠性感知的聚合来解决模态异质性和缺失模态问题,在多个数据集上实现了性能提升。