UniPath: 统一多模态推理中理解与生成的适应性协调

Hugging Face Daily Papers 论文

摘要

UniPath 提出了一种框架,用于统一多模态模型中理解与生成的适应性协调,利用协调路径多样性来提升相对于固定策略的性能。

统一多模态模型(UMMs)旨在单一架构中整合理解与生成。然而,如何有效协调这两种能力以实现更高效和更有效的推理仍未得到充分探索。现有的协调方法要么在训练期间进行耦合,没有显式的推理时协调,要么对所有输入施加固定的协调模式。在这项工作中,我们展示了多模态任务表现出显著的协调路径多样性:不同的输入偏好不同的协调路径。这表明利用这种多样性是提升性能的关键。我们提出了 UniPath,一个用于自适应建模和利用协调路径多样性的框架。我们不强制使用单一的协调模式,而是将任务求解表示为路径的选择与执行,路径范围从直接回答到文本推理、视觉思维构建以及基于假设的探索。我们构建了角色对齐的轨迹来训练路径条件执行器,并引入轻量级规划器机制以实现依赖于输入的路径选择。实验表明,利用协调路径多样性相对于固定协调策略提升了性能,同时提供了可解释的中间行为。代码可在以下网址获取:https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath。
查看原文
查看缓存全文

缓存时间: 2026/05/13 16:13

论文页面 - UniPath:面向统一多模态推理的理解与生成自适应协调

来源:https://huggingface.co/papers/2605.11400

摘要

统一多模态模型可以通过自适应选择协调路径而非采用固定模式来提升性能,从而针对不同输入实现多样化的推理策略。

统一多模态模型(https://huggingface.co/papers?q=Unified%20multimodal%20models)(UMMs)旨在将理解与生成能力整合到单一架构中。然而,如何有效协调这两种能力以进行更高效、更有效的推理,仍是一个有待探索的问题。现有的协调方法要么在训练阶段进行耦合,缺乏推理阶段的显式协调,要么对所有输入施加固定的协调模式。在这项工作中,我们展示了多模态任务具有显著的协调路径多样性(https://huggingface.co/papers?q=coordination-path%20diversity):不同输入倾向于采用不同的协调路径。这表明利用这种多样性是提升性能的关键。我们提出了UniPath框架,用于自适应地建模和利用协调路径多样性(https://huggingface.co/papers?q=coordination-path%20diversity)。我们不强制使用单一协调模式,而是将任务求解表示为选择并执行一条路径,路径范围从直接回答到文本推理、视觉思维构建以及基于假设的探索。我们构建了角色对齐轨迹(https://huggingface.co/papers?q=role-aligned%20trajectories)来训练路径条件执行器(https://huggingface.co/papers?q=path-conditioned%20executor),并引入了一种轻量级规划器(https://huggingface.co/papers?q=lightweight%20planner)机制来实现基于输入的路径选择。实验表明,利用协调路径多样性(https://huggingface.co/papers?q=coordination-path%20diversity)相较于固定协调策略能提升性能,同时提供可解释的中间行为。代码已开源在:https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/unipath。

查看 arXiv 页面(https://arxiv.org/abs/2605.11400)查看 PDF(https://arxiv.org/pdf/2605.11400)项目页面(https://github.com/AIFrontierLab/TorchUMM)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.11400)

在你的 agent 中获取本文:

hf papers read 2605.11400

还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型(0)

没有模型链接本文

请在模型 README.md 中引用 arxiv.org/abs/2605.11400 以从本页面链接。

引用本文的数据集(0)

没有数据集链接本文

请在数据集 README.md 中引用 arxiv.org/abs/2605.11400 以从本页面链接。

引用本文的 Spaces(0)

没有 Space 链接本文

请在 Space README.md 中引用 arxiv.org/abs/2605.11400 以从本页面链接。

包含本文的收藏夹(0)

没有收藏夹包含本文

请将本文添加到一个收藏夹(https://huggingface.co/new-collection)中以从本页面链接。

相似文章

在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers

本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。

UniMesh:统一3D网格理解与生成

Hugging Face Daily Papers

UniMesh通过单一模型,借助Mesh Head、链式网格迭代编辑和自省纠错机制,同时完成3D网格生成与理解任务。

面向模态异质性下的鲁棒联邦多模态图学习

arXiv cs.LG

本文提出FedMPO,一种鲁棒的联邦多模态图学习方法,通过拓扑感知的跨模态生成、缺失感知的专家路由和可靠性感知的聚合来解决模态异质性和缺失模态问题,在多个数据集上实现了性能提升。