Lance：通过多任务协同实现统一多模态建模

Hugging Face Daily Papers 2026/05/18 00:00 论文

摘要

Lance 是一个统一多模态模型，采用双流混合专家架构和协作式多任务训练，在图像和视频的理解、生成及编辑方面均表现出色，超越了现有的开源统一模型。

我们提出Lance，一个轻量级的原生统一模型，支持图像和视频的多模态理解、生成与编辑。Lance不依赖模型容量扩展或文本-图像主导设计，而是通过协作式多任务训练探索统一多模态建模的实用范式。它基于两个核心原则：统一上下文建模与解耦能力路径。具体来说，Lance从零开始训练，在共享交织的多模态序列上采用双流混合专家架构，使得在解耦理解与生成路径的同时实现联合上下文学习。我们进一步引入模态感知旋转位置编码，以减轻异构视觉token间的干扰并提升跨任务对齐。在训练过程中，Lance采用分阶段多任务训练范式，结合能力导向的目标和自适应数据调度，增强语义理解和视觉生成性能。实验结果表明，Lance在图像和视频生成方面显著优于现有的开源统一模型，同时保持强大的多模态理解能力。主页地址为https://lance-project.github.io。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:30

论文页面 - Lance：基于多任务协同的统一多模态建模

来源：https://huggingface.co/papers/2605.18678 发布于5月18日

今日第2篇论文 (https://huggingface.co/papers/date/2026-05-19)

作者：

摘要

Lance是一个统一的多模态模型，通过协作多任务训练和双流架构，融合了图像与视频的理解、生成和编辑能力。

我们提出Lance，一个轻量级原生统一模型，支持图像和视频的多模态理解 (https://huggingface.co/papers?q=multimodal%20understanding)、生成与编辑。Lance不依赖模型容量扩展或文本-图像主导设计，而是通过协作多任务训练 (https://huggingface.co/papers?q=collaborative%20multi-task%20training)探索统一多模态建模的实用范式。它基于两个核心原则：统一上下文建模 (https://huggingface.co/papers?q=unified%20context%20modeling) 和解耦能力路径 (https://huggingface.co/papers?q=decoupled%20capability%20pathways)。具体而言，Lance从头训练，在共享的交错多模态序列上采用双流混合专家架构 (https://huggingface.co/papers?q=mixture-of-experts%20architecture)，实现联合上下文学习，同时解耦理解与生成的路径。我们进一步引入模态感知旋转位置编码 (https://huggingface.co/papers?q=modality-aware%20rotary%20positional%20encoding)，以减轻异质视觉标记间的干扰并提升跨任务对齐。训练过程中，Lance采用分阶段多任务训练 (https://huggingface.co/papers?q=staged%20multi-task%20training)范式，配合能力导向的目标和自适应数据调度 (https://huggingface.co/papers?q=adaptive%20data%20scheduling)，以增强语义理解与视觉生成性能。实验结果表明，Lance在图像和视频生成方面显著优于现有的开源统一模型，同时保持强大的多模态理解 (https://huggingface.co/papers?q=multimodal%20understanding)能力。主页地址为 https://lance-project.github.io/。

查看arXiv页面 (https://arxiv.org/abs/2605.18678)查看PDF (https://arxiv.org/pdf/2605.18678)项目页面 (https://lance-project.github.io/)GitHub134 (https://github.com/bytedance/Lance)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18678)

在你的代理中获取此论文：

hf papers read 2605\.18678

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

bytedance-research/Lance Any-to-Any• 大约3小时前更新 • 94 (https://huggingface.co/bytedance-research/Lance)

引用此论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用arxiv.org/abs/2605.18678以从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space的README.md中引用arxiv.org/abs/2605.18678以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection)以从此页面链接。

Lance：通过多任务协同实现统一多模态建模

论文页面 - Lance：基于多任务协同的统一多模态建模

今日第2篇论文 (https://huggingface.co/papers/date/2026-05-19)

摘要

引用此论文的模型1

bytedance-research/Lance Any-to-Any• 大约3小时前更新 • 94 (https://huggingface.co/bytedance-research/Lance)

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏0

相似文章

Show HN: Lance – 图像/视频生成与理解统一模型

bytedance-research/Lance

LoomVideo：统一多模态输入的视频生成与编辑

在统一的多模态理解与生成中唤醒空间智能

UniCorn：通过自生成监督走向自我改进的统一多模态模型

提交意见反馈