@stephenbtl: My talk at @aiDotEngineer is now online. I talked about our research and where @bfl_ml is heading. Thanks @swyx for the…
摘要
Black Forest Labs 在 AI Engineer 大会上分享了 Flux 系列模型的演进历程,并发布了 SelfFlow 研究论文,提出了一种无需外部编码器的自监督多模态训练方法。
查看缓存全文
缓存时间: 2026/05/11 14:46
My talk at @aiDotEngineer is now online.
I talked about our research and where @bfl_ml is heading.
Thanks @swyx for the invite
https://t.co/Qs4Hv0UDb1
TL;DR:Black Forest Labs 回顾了 Flux 系列模型的演进历程,并发布了 SelfFlow 研究论文,提出了一种无需外部编码器的自监督多模态训练方法。
Black Forest Labs 与 Flux 模型背景
Black Forest Labs(BFL)是 Stable Diffusion、Latent Diffusion 以及 Flux 模型背后的核心团队。团队在学术界拥有超过 20 万次的引用,不仅致力于开发模型,还与企业合作应用这些技术。客户包括 Microsoft、Adobe、Canva、Mistral 等知名公司。
BFL 的首要运营原则是发布最先进(SOTA)的模型,并通过公开分享研究成果推动领域共同进步。公司始于 2024 年 8 月发布的 Flux 1,这是其第一次重大突破。
Flux 系列模型演进
Flux 1:开源突破
Flux 1 主打文本到图像生成,是一个改变游戏规则的特性,因为它能在笔记本电脑上运行。与其他体积更大的模型相比,Flux 1 在生成质量尤其是人体结构方面表现优异。发布当时,它是 Hugging Face 上点赞最高的模型,标志着 BFL 作为新公司的巨大成功。
Flux Context:编辑与叙事
随后发布的 Flux Context 是全球首个开源编辑模型,结合了文本到图像生成与图像编辑功能。在当时,能同时实现这两项功能是一个重大突破。
- 速度优势:在初代 GPT Image 生成或编辑一张图需要 40 到 50 秒的时代,Context 仅需 7 到 8 秒。
- 一致性编辑:模型能保持角色高度一致性。例如,去除人脸上的雪花,或将人物移动到 BFL 总部所在地弗莱堡(Freiburg)街头自拍,甚至将背景改为下雪天使人物脸上自然布满雪花。
- 叙事应用:该模型对视频或动画模型非常有用。用户可以基于单张图片创建故事板(例如一只戴 VR 头显的海鸥在酒吧喝酒),随后添加朋友、改变场景(如走到室外)。这些图像可作为输入帧或结束帧提供给视频模型,生成连贯内容。
Flux 2:视觉智能与多图参考
2024 年 11 月,BFL 发布了 Flux 2,标志着迈向“视觉智能”的一步。作为基础模型,Flux 2 在图像质量上达到了难以分辨 AI 生成的水平,细节表现卓越(如手部静脉血管、佩戴的手镯、动物毛发等)。
- 多模态能力:不仅限于人物或动物,还支持专业的产品摄影(如华夫饼、骑助力车绑气球的人物)。
- 多图参考编辑:Flux 2 是第一个支持多图参考的模型,一次最多可接收 10 张图片。
- 穿搭生成:输入六张图片,提示词为“用这些图片创作一套穿搭”,模型能生成符合逻辑的搭配(如得体的夹克和领带)。
- 产品放置:例如将沙发图放入消费者客厅场景,想象实际效果。
- 一致性:在角色、产品和风格的一致性方面表现极佳。
交互式生成速度
2025 年 1 月发布的 Flux 2 更新版本迈向了交互式编辑和生成。
- 实时速度:生成和编辑图像可在不到一秒内完成。最快编辑仅需 500 毫秒,生成仅需 300 毫秒。
模型训练的挑战:表征对齐
BFL 作为一家研究公司,核心关注点在于公开分享成果。在生成内容(图像、视频、音频)的模型训练过程中,存在一个根本性问题:模型并不理解物理常识。
- 问题本质:训练过程通常是对图像加随机噪声然后去噪。模型无法学会“玻璃杯不应穿过桌子”或“人坐在椅子上不应穿模”。
- 传统解决方案:使用“表征对齐(representation alignment)”。引入外部模型(如图像编码器)来理解物理常识,告诉生成模型物体间的正确关系。
- 效果:使用外部对齐时,模型收敛和降低损失的速度可快 70 倍。
外部编码器的局限性
尽管有效,但依赖外部编码器存在显著缺点:
- 扩展上限(Scaling Ceiling):外部模型通常是固定的权重检查点。当生成模型规模扩展时,会受到旁边编码器的限制,无法完全同步扩展。
- 模态专门化:编码器通常针对特定模态(如 DinoV2 专精于图像)。若模型需生成图像、音频、视频等多种内容,需为所有模态配备编码器,导致架构变得像“弗兰肯斯坦”一样拼凑。
- 目标错位:生成模型的目标是生成内容,而编码器的目标可能是分割物体。两者目标不同,协同效果并不完美。
- 案例:DinoV3 技术上比 DinoV2 更好,但用于训练生成模型时表现反而变差。目前没有任何明确规则解释为何某些编码器有效而另一些无效。
SelfFlow:新一代训练方法
为了解决上述问题,BFL 在约一个半月前发布了研究论文《SelfFlow》。该方法旨在不使用外部编码器的情况下,直接教会模型表征。
核心机制
SelfFlow 是一种训练多模态生成模型的可扩展方法,采用自监督学习,无需任何其他模型辅助训练。
- 联合学习:在同一个流程中结合表征学习与生成。
- 双模型协同:
- 学生模型:始终接收噪声最多的图像,试图去噪。
- 教师模型:本质上是学生模型的更稳定版本,始终接收低噪声图像。
- 损失函数:学生模型同时尝试最小化生成损失和表征损失。
- 优势:只有一个模型,不需要外部组件。扩展模型规模时,只需扩展学生和教师模型,无需担心外部编码器的限制。
性能表现与结果
BFL 在所有模态上训练了一个模型,并与常规 Flow Matching 训练方式进行了对比:
- 多模态提升:在音频、图像和视频上表现均优于基线。
- 收敛速度:基线收敛时会遇到平台期,而 SelfFlow 收敛更快且损失持续下降。若训练到两百万步,基线可能效果不再提升甚至变差,而 SelfFlow 损失会继续下降。
- 文本生成改进:
- 基线问题:文字生成不完美,如“The future is flux“字母缺失,“worlds“拼写错误。
- SelfFlow 效果:字母排列合理,镜像文字、树上文字均正确。模型学会了表征,知道字母应依次排列。
- 解剖结构改进:人脸解剖结构比基线模型更自然合理。
- 视频生成:同一模型也能生成视频。基线生成的俯卧撑姿势奇怪,而 SelfFlow 生成的姿势标准,手臂动作正确,头发处理得当。
研究免责声明
展示的 SelfFlow 相关模型为研究模型,不打算直接用于生产环境。但这代表了 BFL 认为的未来方向:摆脱外部编码器,通过自监督学习实现更好的多模态生成。
相似文章
@nini_incrypto_: Hugging Face 把 AI 训练全流程都自动化了啦! 最近有个叫 ml-intern 的项目在 GitHub 爆火,它就像一个 24 小时待命的算法实习生,能独立完成大模型的后训练(Post-training) 1.自主调研:它会…
Hugging Face 推出的 ml-intern 项目在 GitHub 上爆火,能够自主完成论文调研、数据处理、训练脚本编写和模型训练的全流程自动化,无需人工干预即可将小模型(如 Qwen3-1.7B)的性能大幅提升,甚至超越 Claude Code。
@DayShuai: 明天 volunteer 了在 Yang Zhang lab 组会上分享我自己的 AI loop。同一套 OS pattern 最近半年在 automath 和 newmath 跑出 3,400+ 0-axiom Lean 4 定理、5×…
分享在Yang Zhang实验室组会上的AI loop经验,包括自动化定理证明、多机器协作、蒸馏私人经验库等,并提及Fields奖得主使用AI解决数学难题的例子。
@Prince_Canuma: 我在 @aiDotEngineer 的演讲已上线:“基于 MLX 的端侧智能”。非常感谢 @swyx 和团队的邀请——ha…
作者宣布其在 aiDotEngineer 活动上的演讲《基于 MLX 的端侧智能》已上线,并对主办方及社区贡献者表示感谢。
@__JohnNguyen__: 今天我们发布了 CVPR 2026 论文 Flowception 的代码。Flowception 在完全双向序列模型和自回归生成之间架起了桥梁……
Meta 的 FAIR 团队发布了 Flowception 的代码,这是 CVPR 2026 的一篇论文,介绍了一种非自回归视频生成框架。该框架通过交错帧插入与连续去噪,减少了误差累积和计算成本。
@ma_zhenyuan: https://x.com/ma_zhenyuan/status/2057702858800370052
这篇文章介绍了Superpowers,一套基于Claude Code的AI工作流Skills,提供自动化的头脑风暴、计划、子代理开发和测试驱动开发,能显著提升AI交付效率。