Show HN: Lance – 图像/视频生成与理解统一模型

Hacker News Top 模型

摘要

字节跳动发布Lance,一个3B参数的统一多模态模型,支持图像和视频的生成、理解与编辑,采用多任务方案从头开始训练。

该模型拥有3B活跃参数。此处提供代码、主页、论文和模型链接:<p>- 代码: <a href="https:&#x2F;&#x2F;github.com&#x2F;bytedance&#x2F;Lance" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;bytedance&#x2F;Lance</a><p>- 主页: <a href="https:&#x2F;&#x2F;lance-project.github.io&#x2F;" rel="nofollow">https:&#x2F;&#x2F;lance-project.github.io&#x2F;</a><p>- 论文: <a href="https:&#x2F;&#x2F;arxiv.org&#x2F;abs&#x2F;2605.18678" rel="nofollow">https:&#x2F;&#x2F;arxiv.org&#x2F;abs&#x2F;2605.18678</a><p>- 模型: <a href="https:&#x2F;&#x2F;huggingface.co&#x2F;bytedance-research&#x2F;Lance" rel="nofollow">https:&#x2F;&#x2F;huggingface.co&#x2F;bytedance-research&#x2F;Lance</a><p>注:Lance是一个研究项目,并非成熟产品。该模型使用少于128块GPU进行训练。
查看原文
查看缓存全文

缓存时间: 2026/05/20 17:28

Lance: 统一多模态建模与多任务协同

冯易甫*、黄梦琪*、✉、吴少金*、姜云生*、霍宇飞、郭建柱✉、§、李浩、宋英航、丁飞、何倩、付哲仁、毛振东、张永东
字节跳动

  • 同等贡献 ✉ 通讯作者 § 项目负责人

English | 简体中文

文生视频

视频编辑

多轮一致性编辑

智能视频生成

视频理解

问题: 这个人往桌子上扔了几次物体?
选项: (A) 3 (B) 2 (C) 4
回答: (A) 3

问题: 这个人做了一系列重复动作。他做了多少种不同的重复动作?
选项: (A) 2 (B) 3 (C) 4
回答: (A) 2

问题: 视频中的紫色球体朝哪个方向移动?
选项: (A) 向下并向右 (B) 向上并向左 (C) 向上并向右 (D) 物体静止不动
回答: (A) 向下并向右

问题: 视频中展示了什么不现实的现象?
选项: (A) 该男子可以通过手机操控时间 (B) 该男子透过手机屏幕抓取物体 (C) 巧克力变成不同的物体 (D) 可见的推进方式使物体飞行
回答: (B) 该男子透过手机屏幕抓取物体

问题: 简述视频中展示的烹饪过程。
回答: 加入番茄酱,并与鸡块充分混合。

问题: 详细描述给出的视频,捕捉其关键瞬间。
回答: 在一片阳光明媚的草地上,一只小玳瑁蝴蝶停在一朵紫色花上。一只带有黑黄条纹的蜜蜂落在同一朵花上。蝴蝶轻轻扇动翅膀,而蜜蜂则忙于采集花蜜。花在微风中轻轻摇曳。随后蝴蝶飞起,蜜蜂紧随其后,都朝着下一朵花飞去。这一场景生动展示了自然环境中昆虫的互动,蝴蝶和蜜蜂的色彩与草地的绿色背景形成对比。视频在短短6秒内捕捉了这一宁静的瞬间。

文生图生成

图像编辑

图像理解

问题: 最大的部分是否大于其他所有部分之和?
回答: 是的,饼图中最大的部分是蓝色部分,也是人口最多的部分。

问题: 有多少百分比的受访者希望加强边境安全?
回答: 29%

问题: 这辆车的车牌号是多少?
回答: 这辆车的车牌号是 BX62 BFY。

问题: 根据专有市场研究数据,1998年用于促销会议和活动的花费是多少?
回答: 根据专有市场研究数据,1998年用于促销会议和活动的总花费约为13亿美元。

问题: 意大利罗马斗兽场的外观是怎样的?
回答: 意大利罗马斗兽场是一座宏伟的古代圆形剧场,由石头和混凝土建成。其特点是巨大的拱形开口和半圆形结构。斗兽场经过部分修复,原始颜色已褪去,但建筑细节如柱子和半圆形拱门仍然可见。图像中的光照突出了斗兽场的宏伟和历史意义,使其在傍晚天空的映衬下格外醒目。

问题: 从地球上看,日全食是什么样子的?
回答: 日全食看起来像一个黑色的圆盘,边缘带有明亮的白色光环。这是由于地球自转和地球阴影部分遮挡了太阳光所致。日食边缘的亮白色是由太阳的高能及其与地球大气相互作用产生的,而暗色部分则源于地球阴影和周围气流。日食的形状,带有明亮的白色边缘和暗色中心,类似于满月或暗色圆盘。这是一种发生在地球大气中的自然现象,是太阳系的重要组成部分。

† 表示在生成前使用LLM重写器进行提示词改写的方法。

相似文章

bytedance-research/Lance

Hugging Face Models Trending

字节跳动研究团队推出Lance,一个30亿参数(3B参数)的统一多模态模型,在128块A100 GPU上从零开始训练,能够在单一框架内进行图像和视频的理解、生成和编辑。

Lance:通过多任务协同实现统一多模态建模

Hugging Face Daily Papers

Lance 是一个统一多模态模型,采用双流混合专家架构和协作式多任务训练,在图像和视频的理解、生成及编辑方面均表现出色,超越了现有的开源统一模型。

LoomVideo:统一多模态输入的视频生成与编辑

Hugging Face Daily Papers

LoomVideo提出了一种5B参数的统一架构用于视频生成和编辑,通过新颖的条件机制和多模态对齐减少计算开销,实现了具有竞争力的性能和更快的推理速度。