UniPath: 统一多模态推理中理解与生成的适应性协调
摘要
UniPath 提出了一种框架,用于统一多模态模型中理解与生成的适应性协调,利用协调路径多样性来提升相对于固定策略的性能。
查看缓存全文
缓存时间: 2026/05/13 16:13
论文页面 - UniPath:面向统一多模态推理的理解与生成自适应协调
来源:https://huggingface.co/papers/2605.11400
摘要
统一多模态模型可以通过自适应选择协调路径而非采用固定模式来提升性能,从而针对不同输入实现多样化的推理策略。
统一多模态模型(https://huggingface.co/papers?q=Unified%20multimodal%20models)(UMMs)旨在将理解与生成能力整合到单一架构中。然而,如何有效协调这两种能力以进行更高效、更有效的推理,仍是一个有待探索的问题。现有的协调方法要么在训练阶段进行耦合,缺乏推理阶段的显式协调,要么对所有输入施加固定的协调模式。在这项工作中,我们展示了多模态任务具有显著的协调路径多样性(https://huggingface.co/papers?q=coordination-path%20diversity):不同输入倾向于采用不同的协调路径。这表明利用这种多样性是提升性能的关键。我们提出了UniPath框架,用于自适应地建模和利用协调路径多样性(https://huggingface.co/papers?q=coordination-path%20diversity)。我们不强制使用单一协调模式,而是将任务求解表示为选择并执行一条路径,路径范围从直接回答到文本推理、视觉思维构建以及基于假设的探索。我们构建了角色对齐轨迹(https://huggingface.co/papers?q=role-aligned%20trajectories)来训练路径条件执行器(https://huggingface.co/papers?q=path-conditioned%20executor),并引入了一种轻量级规划器(https://huggingface.co/papers?q=lightweight%20planner)机制来实现基于输入的路径选择。实验表明,利用协调路径多样性(https://huggingface.co/papers?q=coordination-path%20diversity)相较于固定协调策略能提升性能,同时提供可解释的中间行为。代码已开源在:https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath。
查看 arXiv 页面(https://arxiv.org/abs/2605.11400)查看 PDF(https://arxiv.org/pdf/2605.11400)项目页面(https://github.com/AIFrontierLab/TorchUMM)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.11400)
在你的 agent 中获取本文:
hf papers read 2605.11400
还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型(0)
没有模型链接本文
请在模型 README.md 中引用 arxiv.org/abs/2605.11400 以从本页面链接。
引用本文的数据集(0)
没有数据集链接本文
请在数据集 README.md 中引用 arxiv.org/abs/2605.11400 以从本页面链接。
引用本文的 Spaces(0)
没有 Space 链接本文
请在 Space README.md 中引用 arxiv.org/abs/2605.11400 以从本页面链接。
包含本文的收藏夹(0)
没有收藏夹包含本文
请将本文添加到一个收藏夹(https://huggingface.co/new-collection)中以从本页面链接。
相似文章
通过理解监督引导统一多模态模型中的视觉生成
本文介绍了 UNO,这是一种以理解为导向的后训练框架,利用理解任务作为监督信号,以增强统一多模态模型中的图像生成和编辑能力。
UniVidX:基于扩散先验的多功能视频生成统一多模态框架
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。
UniCorn:通过自生成监督走向自我改进的统一多模态模型
UniCorn 是一个框架,通过使用多智能体系统进行提示生成、图像创建和质量评估,使统一多模态模型能够自我改进,在 TIIF、WISE 和 OneIG-EN 等文本到图像基准上取得了最先进的结果。
统一多模态自回归建模:共享上下文-视觉分词器是实现统一的关键
UniAR提出了一个统一的自回归框架,使用单个离散视觉分词器桥接视觉理解与生成,在图像生成和编辑方面取得了最佳成果。
Uni-Edit:智能编辑是统一模型调优的通用任务
Uni-Edit提出使用智能图像编辑作为单一通用任务,以同时提升统一多模态模型的理解、生成和编辑能力,并配备自动化数据合成流程生成复杂的编辑指令。