Show HN: Lance – 图像/视频生成与理解统一模型
摘要
字节跳动发布Lance,一个3B参数的统一多模态模型,支持图像和视频的生成、理解与编辑,采用多任务方案从头开始训练。
查看缓存全文
缓存时间: 2026/05/20 17:28
Lance: 统一多模态建模与多任务协同
冯易甫*、黄梦琪*、✉、吴少金*、姜云生*、霍宇飞、郭建柱✉、§、李浩、宋英航、丁飞、何倩、付哲仁、毛振东、张永东
字节跳动
- 同等贡献 ✉ 通讯作者 § 项目负责人
English | 简体中文
文生视频
视频编辑
多轮一致性编辑
智能视频生成
视频理解
问题: 这个人往桌子上扔了几次物体?
选项: (A) 3 (B) 2 (C) 4
回答: (A) 3
问题: 这个人做了一系列重复动作。他做了多少种不同的重复动作?
选项: (A) 2 (B) 3 (C) 4
回答: (A) 2
问题: 视频中的紫色球体朝哪个方向移动?
选项: (A) 向下并向右 (B) 向上并向左 (C) 向上并向右 (D) 物体静止不动
回答: (A) 向下并向右
问题: 视频中展示了什么不现实的现象?
选项: (A) 该男子可以通过手机操控时间 (B) 该男子透过手机屏幕抓取物体 (C) 巧克力变成不同的物体 (D) 可见的推进方式使物体飞行
回答: (B) 该男子透过手机屏幕抓取物体
问题: 简述视频中展示的烹饪过程。
回答: 加入番茄酱,并与鸡块充分混合。
问题: 详细描述给出的视频,捕捉其关键瞬间。
回答: 在一片阳光明媚的草地上,一只小玳瑁蝴蝶停在一朵紫色花上。一只带有黑黄条纹的蜜蜂落在同一朵花上。蝴蝶轻轻扇动翅膀,而蜜蜂则忙于采集花蜜。花在微风中轻轻摇曳。随后蝴蝶飞起,蜜蜂紧随其后,都朝着下一朵花飞去。这一场景生动展示了自然环境中昆虫的互动,蝴蝶和蜜蜂的色彩与草地的绿色背景形成对比。视频在短短6秒内捕捉了这一宁静的瞬间。
文生图生成
图像编辑
图像理解
问题: 最大的部分是否大于其他所有部分之和?
回答: 是的,饼图中最大的部分是蓝色部分,也是人口最多的部分。
问题: 有多少百分比的受访者希望加强边境安全?
回答: 29%
问题: 这辆车的车牌号是多少?
回答: 这辆车的车牌号是 BX62 BFY。
问题: 根据专有市场研究数据,1998年用于促销会议和活动的花费是多少?
回答: 根据专有市场研究数据,1998年用于促销会议和活动的总花费约为13亿美元。
问题: 意大利罗马斗兽场的外观是怎样的?
回答: 意大利罗马斗兽场是一座宏伟的古代圆形剧场,由石头和混凝土建成。其特点是巨大的拱形开口和半圆形结构。斗兽场经过部分修复,原始颜色已褪去,但建筑细节如柱子和半圆形拱门仍然可见。图像中的光照突出了斗兽场的宏伟和历史意义,使其在傍晚天空的映衬下格外醒目。
问题: 从地球上看,日全食是什么样子的?
回答: 日全食看起来像一个黑色的圆盘,边缘带有明亮的白色光环。这是由于地球自转和地球阴影部分遮挡了太阳光所致。日食边缘的亮白色是由太阳的高能及其与地球大气相互作用产生的,而暗色部分则源于地球阴影和周围气流。日食的形状,带有明亮的白色边缘和暗色中心,类似于满月或暗色圆盘。这是一种发生在地球大气中的自然现象,是太阳系的重要组成部分。
† 表示在生成前使用LLM重写器进行提示词改写的方法。
相似文章
bytedance-research/Lance
字节跳动研究团队推出Lance,一个30亿参数(3B参数)的统一多模态模型,在128块A100 GPU上从零开始训练,能够在单一框架内进行图像和视频的理解、生成和编辑。
Lance:通过多任务协同实现统一多模态建模
Lance 是一个统一多模态模型,采用双流混合专家架构和协作式多任务训练,在图像和视频的理解、生成及编辑方面均表现出色,超越了现有的开源统一模型。
LoomVideo:统一多模态输入的视频生成与编辑
LoomVideo提出了一种5B参数的统一架构用于视频生成和编辑,通过新颖的条件机制和多模态对齐减少计算开销,实现了具有竞争力的性能和更快的推理速度。
@HuggingPapers:微软刚刚在Hugging Face上发布了Lens,一个38亿参数的文本到图像模型,提供高效训练和高…
微软在Hugging Face上发布了Lens,一个38亿参数的文本到图像模型,支持高效训练和高达1440×1440的高分辨率生成。
@aiDotEngineer:规模化构建生成式图像与视频模型 https://youtube.com/watch?v=xOP1PM8fwnk… 图像生成最近热度很高!
@sedielem 在 YouTube 上的演讲,精炼地回顾了生成式图像与视频模型在规模化时的最新进展,涵盖建模、架构、蒸馏与控制。