Lance:通过多任务协同实现统一多模态建模

Hugging Face Daily Papers 论文

摘要

Lance 是一个统一多模态模型,采用双流混合专家架构和协作式多任务训练,在图像和视频的理解、生成及编辑方面均表现出色,超越了现有的开源统一模型。

我们提出Lance,一个轻量级的原生统一模型,支持图像和视频的多模态理解、生成与编辑。Lance不依赖模型容量扩展或文本-图像主导设计,而是通过协作式多任务训练探索统一多模态建模的实用范式。它基于两个核心原则:统一上下文建模与解耦能力路径。具体来说,Lance从零开始训练,在共享交织的多模态序列上采用双流混合专家架构,使得在解耦理解与生成路径的同时实现联合上下文学习。我们进一步引入模态感知旋转位置编码,以减轻异构视觉token间的干扰并提升跨任务对齐。在训练过程中,Lance采用分阶段多任务训练范式,结合能力导向的目标和自适应数据调度,增强语义理解和视觉生成性能。实验结果表明,Lance在图像和视频生成方面显著优于现有的开源统一模型,同时保持强大的多模态理解能力。主页地址为https://lance-project.github.io。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:30

论文页面 - Lance:基于多任务协同的统一多模态建模

来源:https://huggingface.co/papers/2605.18678 发布于5月18日

今日第2篇论文 (https://huggingface.co/papers/date/2026-05-19)

作者:

,

,

,

,

,

,

,

,

,

,

,

摘要

Lance是一个统一的多模态模型,通过协作多任务训练和双流架构,融合了图像与视频的理解、生成和编辑能力。

我们提出Lance,一个轻量级原生统一模型,支持图像和视频的多模态理解 (https://huggingface.co/papers?q=multimodal%20understanding)、生成与编辑。Lance不依赖模型容量扩展或文本-图像主导设计,而是通过协作多任务训练 (https://huggingface.co/papers?q=collaborative%20multi-task%20training)探索统一多模态建模的实用范式。它基于两个核心原则:统一上下文建模 (https://huggingface.co/papers?q=unified%20context%20modeling) 和解耦能力路径 (https://huggingface.co/papers?q=decoupled%20capability%20pathways)。具体而言,Lance从头训练,在共享的交错多模态序列上采用双流混合专家架构 (https://huggingface.co/papers?q=mixture-of-experts%20architecture),实现联合上下文学习,同时解耦理解与生成的路径。我们进一步引入模态感知旋转位置编码 (https://huggingface.co/papers?q=modality-aware%20rotary%20positional%20encoding),以减轻异质视觉标记间的干扰并提升跨任务对齐。训练过程中,Lance采用分阶段多任务训练 (https://huggingface.co/papers?q=staged%20multi-task%20training)范式,配合能力导向的目标和自适应数据调度 (https://huggingface.co/papers?q=adaptive%20data%20scheduling),以增强语义理解与视觉生成性能。实验结果表明,Lance在图像和视频生成方面显著优于现有的开源统一模型,同时保持强大的多模态理解 (https://huggingface.co/papers?q=multimodal%20understanding)能力。主页地址为 https://lance-project.github.io/。

查看arXiv页面 (https://arxiv.org/abs/2605.18678)查看PDF (https://arxiv.org/pdf/2605.18678)项目页面 (https://lance-project.github.io/)GitHub134 (https://github.com/bytedance/Lance)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18678)

在你的代理中获取此论文:

hf papers read 2605\.18678

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

bytedance-research/Lance Any-to-Any• 大约3小时前更新 • 94 (https://huggingface.co/bytedance-research/Lance)

引用此论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用arxiv.org/abs/2605.18678以从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space的README.md中引用arxiv.org/abs/2605.18678以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection)以从此页面链接。

相似文章

bytedance-research/Lance

Hugging Face Models Trending

字节跳动研究团队推出Lance,一个30亿参数(3B参数)的统一多模态模型,在128块A100 GPU上从零开始训练,能够在单一框架内进行图像和视频的理解、生成和编辑。

LoomVideo:统一多模态输入的视频生成与编辑

Hugging Face Daily Papers

LoomVideo提出了一种5B参数的统一架构用于视频生成和编辑,通过新颖的条件机制和多模态对齐减少计算开销,实现了具有竞争力的性能和更快的推理速度。

在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers

本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。