Show HN: Lance – 图像/视频生成与理解统一模型

Hacker News Top 2026/05/20 15:45 模型

unified-multimodal image-generation video-generation image-editing video-understanding open-source byte-dance

摘要

字节跳动发布Lance，一个3B参数的统一多模态模型，支持图像和视频的生成、理解与编辑，采用多任务方案从头开始训练。

该模型拥有3B活跃参数。此处提供代码、主页、论文和模型链接：- 代码: <a href="https://github.com/bytedance/Lance" rel="nofollow">https://github.com/bytedance/Lance</a>- 主页: <a href="https://lance-project.github.io/" rel="nofollow">https://lance-project.github.io/</a>- 论文: <a href="https://arxiv.org/abs/2605.18678" rel="nofollow">https://arxiv.org/abs/2605.18678</a>- 模型: <a href="https://huggingface.co/bytedance-research/Lance" rel="nofollow">https://huggingface.co/bytedance-research/Lance</a>注：Lance是一个研究项目，并非成熟产品。该模型使用少于128块GPU进行训练。

查看原文

查看缓存全文

缓存时间: 2026/05/20 17:28

Lance: 统一多模态建模与多任务协同

冯易甫*、黄梦琪*、✉、吴少金*、姜云生*、霍宇飞、郭建柱✉、§、李浩、宋英航、丁飞、何倩、付哲仁、毛振东、张永东
字节跳动

同等贡献 ✉ 通讯作者 § 项目负责人

English | 简体中文

文生视频

视频编辑

多轮一致性编辑

智能视频生成

视频理解

问题： 这个人往桌子上扔了几次物体？
选项： (A) 3 (B) 2 (C) 4
回答： (A) 3

问题： 这个人做了一系列重复动作。他做了多少种不同的重复动作？
选项： (A) 2 (B) 3 (C) 4
回答： (A) 2

问题： 视频中的紫色球体朝哪个方向移动？
选项： (A) 向下并向右 (B) 向上并向左 (C) 向上并向右 (D) 物体静止不动
回答： (A) 向下并向右

问题： 视频中展示了什么不现实的现象？
选项： (A) 该男子可以通过手机操控时间 (B) 该男子透过手机屏幕抓取物体 (C) 巧克力变成不同的物体 (D) 可见的推进方式使物体飞行
回答： (B) 该男子透过手机屏幕抓取物体

问题： 简述视频中展示的烹饪过程。
回答： 加入番茄酱，并与鸡块充分混合。

问题： 详细描述给出的视频，捕捉其关键瞬间。
回答： 在一片阳光明媚的草地上，一只小玳瑁蝴蝶停在一朵紫色花上。一只带有黑黄条纹的蜜蜂落在同一朵花上。蝴蝶轻轻扇动翅膀，而蜜蜂则忙于采集花蜜。花在微风中轻轻摇曳。随后蝴蝶飞起，蜜蜂紧随其后，都朝着下一朵花飞去。这一场景生动展示了自然环境中昆虫的互动，蝴蝶和蜜蜂的色彩与草地的绿色背景形成对比。视频在短短6秒内捕捉了这一宁静的瞬间。

文生图生成

图像编辑

图像理解

问题： 最大的部分是否大于其他所有部分之和？
回答： 是的，饼图中最大的部分是蓝色部分，也是人口最多的部分。

问题： 有多少百分比的受访者希望加强边境安全？
回答： 29%

问题： 这辆车的车牌号是多少？
回答： 这辆车的车牌号是 BX62 BFY。

问题： 根据专有市场研究数据，1998年用于促销会议和活动的花费是多少？
回答： 根据专有市场研究数据，1998年用于促销会议和活动的总花费约为13亿美元。

问题： 意大利罗马斗兽场的外观是怎样的？
回答： 意大利罗马斗兽场是一座宏伟的古代圆形剧场，由石头和混凝土建成。其特点是巨大的拱形开口和半圆形结构。斗兽场经过部分修复，原始颜色已褪去，但建筑细节如柱子和半圆形拱门仍然可见。图像中的光照突出了斗兽场的宏伟和历史意义，使其在傍晚天空的映衬下格外醒目。

问题： 从地球上看，日全食是什么样子的？
回答： 日全食看起来像一个黑色的圆盘，边缘带有明亮的白色光环。这是由于地球自转和地球阴影部分遮挡了太阳光所致。日食边缘的亮白色是由太阳的高能及其与地球大气相互作用产生的，而暗色部分则源于地球阴影和周围气流。日食的形状，带有明亮的白色边缘和暗色中心，类似于满月或暗色圆盘。这是一种发生在地球大气中的自然现象，是太阳系的重要组成部分。

† 表示在生成前使用LLM重写器进行提示词改写的方法。

Show HN: Lance – 图像/视频生成与理解统一模型

Lance: 统一多模态建模与多任务协同

文生视频

视频编辑

多轮一致性编辑

智能视频生成

视频理解

文生图生成

图像编辑

图像理解

相似文章

bytedance-research/Lance

Lance：通过多任务协同实现统一多模态建模

LoomVideo：统一多模态输入的视频生成与编辑

@HuggingPapers：微软刚刚在Hugging Face上发布了Lens，一个38亿参数的文本到图像模型，提供高效训练和高…

@aiDotEngineer：规模化构建生成式图像与视频模型 https://youtube.com/watch?v=xOP1PM8fwnk… 图像生成最近热度很高！

提交意见反馈