bytedance-research/Lance
摘要
字节跳动研究团队推出Lance,一个30亿参数(3B参数)的统一多模态模型,在128块A100 GPU上从零开始训练,能够在单一框架内进行图像和视频的理解、生成和编辑。
查看缓存全文
缓存时间: 2026/05/19 00:32
bytedance-research/Lance · Hugging Face
来源:https://huggingface.co/bytedance-research/Lance Lance 标志
Lance:通过多任务协同实现统一多模态建模
冯一夫(https://scholar.google.com.hk/citations?user=FXxoQlsAAAAJ&hl=zh-CN&oi=ao)*,黄梦琪(https://corleone-huang.github.io/)*,✉,吴少金(https://scholar.google.com.hk/citations?user=9ER6nVkAAAAJ&hl=zh-CN&oi=ao)*,蒋云升*,霍宇飞,郭建珠(https://guojianzhu.com/)✉,§ 李浩,宋英行,丁飞,何倩,付哲仁,毛振东,张永东 字节跳动 *同等贡献✉通讯作者§项目负责人
主页(https://lance-project.github.io/)arXiv(https://lance-project.github.io/assets/lance.pdf)GitHub(https://github.com/bytedance/Lance) 英文 |简体中文(https://huggingface.co/bytedance-research/Lance/blob/main/README_zh.md)
🌟 亮点
Lance 是一个轻量级原生统一多模态模型,在单个框架内支持图像和视频的理解、生成与编辑。
- 3B 规模下高效运行。 仅需30 亿激活参数,Lance 在图像生成、图像编辑和视频生成基准测试中均展现出强劲性能。
- 从头开始训练。 Lance 采用阶段性多任务方案进行训练,完全在 128 张 A100 GPU 的预算内从头开始训练。
Lance 在图像生成、图像编辑、视频生成和视频理解方面的基准测试概览
🎨 演示
文本到视频
视频编辑
多轮一致性编辑
智能视频生成
视频理解
问题: 这个人往桌子上发射物体的次数是多少?选项: (A) 3 (B) 2 (C) 4
回答: (A) 3
问题: 这个人做了一系列重复动作。这个人做了多少种不同的重复动作?选项: (A) 2 (B) 3 (C) 4
回答: (A) 2
问题: 视频中紫色球体朝哪个方向移动?选项: (A) 向右下方。 (B) 向左上方。 (C) 向右上方。 (D) 物体是静止的。
回答: (A) 向右下方。
问题: 视频中展示的不现实现象是什么?选项: (A) 这个人可以通过手机操纵时间。 (B) 这个人通过手机屏幕抓取物体。 (C) 巧克力变成不同的物体。 (D) 可见的推进方式使其能够飞行。
回答: (B) 这个人通过手机屏幕抓取物体。
回答: 加入番茄酱并与鸡肉块充分混合。
回答: 在阳光明媚的草地上,一只小龟甲蝶停在一朵紫色的花上。一只带有黑色和黄色条纹的蜜蜂落在同一朵花上。蝴蝶轻轻扇动翅膀,而蜜蜂忙着采集花蜜。花朵在微风中轻轻摇曳。然后蝴蝶飞走了,蜜蜂紧随其后,都朝着下一朵花飞去。这个场景生动展示了昆虫在自然环境中的互动,蝴蝶和蜜蜂的颜色与草地的绿色背景形成对比。视频在短短的 6 秒内捕捉了这一宁静的时刻。
文本到图像生成
Lance 文本到图像生成示例
图像编辑
Lance 图像编辑示例
图像理解
饼图推理案例问题: 最大的部分是否大于所有其他部分之和?
回答: 是的,饼图中最大的部分是蓝色部分,它是最多的人口部分。
关于边境安全优先级的调查图表问题: 多少百分比的受访者希望加强边境安全?
回答: 29%
车牌识别案例问题: 这辆车的车牌号是多少?
回答: 这辆车的车牌号是 BX62 BFY。
市场研究图表推理案例问题: 根据专有市场研究的数据,1998 年在促销会议和活动上花费了多少金额?
回答: 根据专有市场研究的数据,1998 年在促销会议和活动上花费的总金额约为 13 亿美元。
罗马斗兽场描述案例问题: 意大利罗马斗兽场的外观如何?
回答: 意大利的罗马斗兽场是一座宏伟的古代露天剧场,由石材和混凝土建造而成。它的特点是大型拱形开口和半圆形外观。斗兽场已部分修复,其原始颜色已经褪去,但建筑细节,如柱子和半圆形拱门,仍然可见。图像中的光线突出了斗兽场的宏伟和历史意义,使其在傍晚天空的背景下格外醒目。
日全食案例问题: 从地球上看,日全食是什么样子?
回答: 日全食看起来像一个暗色的圆盘,边缘有明亮的白色外层。这是由于地球自转和地球阴影部分遮挡了太阳光所致。日食明亮白色边缘是由于太阳的高能量及其与地球大气层的相互作用造成的,而日食的暗色部分则是由地球阴影和周围气流造成的。日食的形状,带有明亮的白色边缘和暗色中心,类似于满月或暗色圆盘的形状。这是一种发生在地球大气层中的自然现象,是太阳系的重要组成部分。
🚀 安装
推荐环境
- 软件: Python 3.10+,CUDA 12.4+(必需)
- 硬件: 推理需要至少 40GB 显存的 GPU
安装步骤
bash ./setup_env.sh
下载模型权重
请下载Lance-3B (Huggingface 链接)(https://huggingface.co/bytedance-research/Lance)的所有必要模型检查点,并将它们放置在downloads/目录中。
📚 使用方法
推理
Lance 为所有生成/编辑/理解任务提供统一的命令行界面:
bash inference_lance.sh
- 运行前,请在
inference_lance.sh顶部配置推理参数。 - 支持的任务:
t2i,t2v,image_edit,video_edit,x2t_image和x2t_video。您可以修改inference_lance.py中的TASK_DEFAULT_CONFIGS来为每个任务自定义默认数据样本。
可用任务
任务名称描述示例 JSONt2v文本到视频生成config/examples/t2v_example.json``t2i文本到图像生成config/examples/t2i_example.json``image_edit图像编辑config/examples/image_edit_example.json``video_edit视频编辑config/examples/video_edit_example.json``x2t_image图像理解config/examples/x2t_image_example.json``x2t_video视频理解config/examples/x2t_video_example.json
用于理解任务的示例:
config/examples/x2t_image_example.json:用于视觉问答和基于图像推理的图像理解示例。config/examples/x2t_video_example.json:用于视频问答和视频字幕的视频理解示例。
参数
您可以在inference_lance.sh脚本顶部配置以下超参数:
参数默认值描述MODEL_PATH``"downloads/lance_3b"已下载的 Lance 模型权重的路径。NUM_GPUS``1用于推理的 GPU 数量。VALIDATION_NUM_TIMESTEPS``30去噪步数(例如,30 或 50)。VALIDATION_TIMESTEP_SHIFT``3.5用于流匹配调度的时间步偏移参数。CFG_TEXT_SCALE``4.0用于文本条件的无分类器引导 (CFG) 尺度。VALIDATION_DATA_SEED``42用于生成可复现性的随机种子。NUM_FRAMES``50视频生成的帧数(最大:121)。图像任务不使用。VIDEO_HEIGHT/VIDEO_WIDTH``768空间分辨率。编辑任务不使用(由输入图像/视频决定)。RESOLUTION``"video_480p"基础分辨率预设(image_768res 或 video_480p)。
Gradio
python lance_gradio_t2v_v2t.py --gpus 0 --server-port 7860
基准测试
DPG-Bench 评估
模型# 参数全局实体属性关系其他总体仅生成模型SDXL3.5B83.2782.4380.9186.7680.4174.65DALL-E 3-90.9789.6188.3990.5889.8383.50SD3-Medium2B87.9091.0188.8380.7088.6884.08FLUX.1-dev12B74.3590.0088.9690.8788.3383.84Qwen-Image20B91.3291.5692.0294.3192.7388.32统一模型Janus-Pro-7B7B86.9088.9089.4089.3289.4884.19OmniGen24B88.8188.8390.1889.3790.2783.57Show-o27B89.0091.7889.9691.8191.6486.14BAGEL†7B88.9490.3791.2990.8288.6785.07InternVL-U1.7B90.3990.7890.6890.2988.7785.18TUNA7B90.4291.6890.9491.8790.7386.76TUNA-27B89.5091.4092.0791.9188.8186.54🌟Lance(我们的)3B83.8991.0789.3693.3880.80****84.67 † 表示在生成前使用 LLM 重写器对提示进行重写的方法。
GenEval 评估
模型# 参数1 个对象2 个对象计数颜色位置属性总体仅生成模型SDXL3.5B0.980.740.390.850.150.230.55DALL-E 3-0.960.870.470.830.430.450.67SD3-Medium2B0.990.940.720.890.330.600.74FLUX.1-dev12B0.980.930.750.930.680.650.82Qwen-Image20B0.990.920.890.880.760.770.87统一模型Janus-Pro-7B7B0.990.890.590.900.790.660.80OmniGen24B1.000.950.640.880.550.760.80Show-o27B1.000.870.580.920.520.620.76BAGEL†7B0.980.950.840.950.780.770.88Mogao7B1.00****0.970.830.930.840.800.89InternVL-U1.7B0.990.940.740.910.770.740.85TUNA7B1.00****0.970.810.910.880.830.90TUNA-27B0.990.960.800.910.840.760.87🌟Lance(我们的)3B1.000.940.840.970.870.810.90 † 表示在生成前使用 LLM 重写器对提示进行重写的方法。
GEdit-Bench 评估
模型# 参数BCCAMMMCPBSTSASRSRpTMTTAvg/G_O仅生成模型Gemini 2.0——6.32GPT Image 1-6.966.857.105.416.747.447.518.738.558.458.697.49Qwen-Image-Edit20B8.238.307.338.057.496.748.578.098.298.488.508.01统一模型Lumina-DiMOO8B3.434.273.082.774.745.194.443.804.382.684.203.91Ovis-U11.2B7.496.886.214.795.986.467.497.257.274.486.316.42BAGEL7B7.326.916.384.754.576.157.907.167.027.326.226.52InternVL-U1.7B7.087.056.387.026.036.277.136.556.336.596.856.66InternVL-U(带 CoT)1.7B7.057.876.506.995.776.107.337.167.127.366.466.88🌟Lance(我们的)3B7.737.747.287.837.50****7.037.647.85****7.714.467.57****7.30
VBench 评估(视频生成)
模型# 参数总分 ↑仅生成ModelScope1.7B75.75LaVie3B77.08Show-16B78.93AnimateDiff-V2-80.27VideoCrafter-2.0-80.44CogVideoX5B81.61Kling-81.85Open-Sora-2.0-81.71Gen-3-82.32Step-Video-T2V30B81.83Hunyuan Video-83.43Wan2.1-T2V14B83.69统一HaproOmni7B78.10Emu38B80.96VILA-U7B74.01Show-o22B81.34TUNA1.5B84.06🌟Lance(我们的)3B85.11
运行基准测试
benchmarks/ 文件夹下提供了可直接运行的基准测试脚本:
基准测试模态脚本GenEVAL(图像生成)图像benchmarks/image_gen/GenEVAL/sample_GenEVAL.shDPG(图像生成)图像benchmarks/image_gen/DPG/sample_DPG.shGEdit(图像编辑)图像benchmarks/image_gen/GEdit/sample_GEdit.shVBench(视频生成)视频benchmarks/video_gen/Vbench/sample_vbench.sh
📄 许可证
版权所有 2025 字节跳动有限公司及其关联公司。
💖 引用
如果您觉得 Lance 对您的项目或研究有用,欢迎 🌟 本仓库并使用以下 BibTeX 引用我们的工作:
@misc{lance2026, title = {Lance: Unified Multimodal Modeling by Multi-Task Synergy}, author = {Fengyi Fu and Mengqi Huang and Shaojin Wu and Yunsheng Jiang and Yufei Huo and Jianzhu Guo and Hao Li and Yinghang Song and Fei Ding and Qian He and Zheren Fu and Zhendong Mao and Yongdong Zhang}, year = {2026}, note = {Manuscript} }
📞 联系方式
如有任何问题、疑问或合作意向,请联系黄梦琪(https://corleone-huang.github.io/)和郭建珠(https://guojianzhu.com/)。
相似文章
Show HN: Lance – 图像/视频生成与理解统一模型
字节跳动发布Lance,一个3B参数的统一多模态模型,支持图像和视频的生成、理解与编辑,采用多任务方案从头开始训练。
Lance:通过多任务协同实现统一多模态建模
Lance 是一个统一多模态模型,采用双流混合专家架构和协作式多任务训练,在图像和视频的理解、生成及编辑方面均表现出色,超越了现有的开源统一模型。
microsoft/Lens
微软发布了Lens,一个38亿参数的基础文本到图像模型,专为高效训练和快速高分辨率生成而设计,以更少的计算量实现了具有竞争力的质量。
LoomVideo:统一多模态输入的视频生成与编辑
LoomVideo提出了一种5B参数的统一架构用于视频生成和编辑,通过新颖的条件机制和多模态对齐减少计算开销,实现了具有竞争力的性能和更快的推理速度。
microsoft/Lens-Turbo
微软发布了Lens,一个拥有38亿参数的基础文本到图像模型,具备高效的训练和快速的高分辨率生成能力,采用密集字幕预训练和混合分辨率学习。