Lance:通过多任务协同实现统一多模态建模
摘要
Lance 是一个统一多模态模型,采用双流混合专家架构和协作式多任务训练,在图像和视频的理解、生成及编辑方面均表现出色,超越了现有的开源统一模型。
查看缓存全文
缓存时间: 2026/05/19 06:30
论文页面 - Lance:基于多任务协同的统一多模态建模
来源:https://huggingface.co/papers/2605.18678 发布于5月18日
今日第2篇论文 (https://huggingface.co/papers/date/2026-05-19)
作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
Lance是一个统一的多模态模型,通过协作多任务训练和双流架构,融合了图像与视频的理解、生成和编辑能力。
我们提出Lance,一个轻量级原生统一模型,支持图像和视频的多模态理解 (https://huggingface.co/papers?q=multimodal%20understanding)、生成与编辑。Lance不依赖模型容量扩展或文本-图像主导设计,而是通过协作多任务训练 (https://huggingface.co/papers?q=collaborative%20multi-task%20training)探索统一多模态建模的实用范式。它基于两个核心原则:统一上下文建模 (https://huggingface.co/papers?q=unified%20context%20modeling) 和解耦能力路径 (https://huggingface.co/papers?q=decoupled%20capability%20pathways)。具体而言,Lance从头训练,在共享的交错多模态序列上采用双流混合专家架构 (https://huggingface.co/papers?q=mixture-of-experts%20architecture),实现联合上下文学习,同时解耦理解与生成的路径。我们进一步引入模态感知旋转位置编码 (https://huggingface.co/papers?q=modality-aware%20rotary%20positional%20encoding),以减轻异质视觉标记间的干扰并提升跨任务对齐。训练过程中,Lance采用分阶段多任务训练 (https://huggingface.co/papers?q=staged%20multi-task%20training)范式,配合能力导向的目标和自适应数据调度 (https://huggingface.co/papers?q=adaptive%20data%20scheduling),以增强语义理解与视觉生成性能。实验结果表明,Lance在图像和视频生成方面显著优于现有的开源统一模型,同时保持强大的多模态理解 (https://huggingface.co/papers?q=multimodal%20understanding)能力。主页地址为 https://lance-project.github.io/。
查看arXiv页面 (https://arxiv.org/abs/2605.18678)查看PDF (https://arxiv.org/pdf/2605.18678)项目页面 (https://lance-project.github.io/)GitHub134 (https://github.com/bytedance/Lance)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18678)
在你的代理中获取此论文:
hf papers read 2605\.18678
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1
bytedance-research/Lance Any-to-Any• 大约3小时前更新 • 94 (https://huggingface.co/bytedance-research/Lance)
引用此论文的数据集0
没有数据集链接此论文
在数据集的README.md中引用arxiv.org/abs/2605.18678以从此页面链接。
引用此论文的Space0
没有Space链接此论文
在Space的README.md中引用arxiv.org/abs/2605.18678以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection)以从此页面链接。
相似文章
Show HN: Lance – 图像/视频生成与理解统一模型
字节跳动发布Lance,一个3B参数的统一多模态模型,支持图像和视频的生成、理解与编辑,采用多任务方案从头开始训练。
bytedance-research/Lance
字节跳动研究团队推出Lance,一个30亿参数(3B参数)的统一多模态模型,在128块A100 GPU上从零开始训练,能够在单一框架内进行图像和视频的理解、生成和编辑。
LoomVideo:统一多模态输入的视频生成与编辑
LoomVideo提出了一种5B参数的统一架构用于视频生成和编辑,通过新颖的条件机制和多模态对齐减少计算开销,实现了具有竞争力的性能和更快的推理速度。
在统一的多模态理解与生成中唤醒空间智能
本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。
UniCorn:通过自生成监督走向自我改进的统一多模态模型
UniCorn 是一个框架,通过使用多智能体系统进行提示生成、图像创建和质量评估,使统一多模态模型能够自我改进,在 TIIF、WISE 和 OneIG-EN 等文本到图像基准上取得了最先进的结果。