@stephenbtl: My talk at @aiDotEngineer is now online. I talked about our research and where @bfl_ml is heading. Thanks @swyx for the…

X AI KOLs Following 论文

摘要

Black Forest Labs 在 AI Engineer 大会上分享了 Flux 系列模型的演进历程,并发布了 SelfFlow 研究论文,提出了一种无需外部编码器的自监督多模态训练方法。

My talk at @aiDotEngineer is now online. I talked about our research and where @bfl_ml is heading. Thanks @swyx for the invite https://t.co/Qs4Hv0UDb1
查看原文
查看缓存全文

缓存时间: 2026/05/11 14:46

My talk at @aiDotEngineer is now online.

I talked about our research and where @bfl_ml is heading.

Thanks @swyx for the invite

https://t.co/Qs4Hv0UDb1


TL;DR:Black Forest Labs 回顾了 Flux 系列模型的演进历程,并发布了 SelfFlow 研究论文,提出了一种无需外部编码器的自监督多模态训练方法。

Black Forest Labs 与 Flux 模型背景

Black Forest Labs(BFL)是 Stable Diffusion、Latent Diffusion 以及 Flux 模型背后的核心团队。团队在学术界拥有超过 20 万次的引用,不仅致力于开发模型,还与企业合作应用这些技术。客户包括 Microsoft、Adobe、Canva、Mistral 等知名公司。

BFL 的首要运营原则是发布最先进(SOTA)的模型,并通过公开分享研究成果推动领域共同进步。公司始于 2024 年 8 月发布的 Flux 1,这是其第一次重大突破。

Flux 系列模型演进

Flux 1:开源突破

Flux 1 主打文本到图像生成,是一个改变游戏规则的特性,因为它能在笔记本电脑上运行。与其他体积更大的模型相比,Flux 1 在生成质量尤其是人体结构方面表现优异。发布当时,它是 Hugging Face 上点赞最高的模型,标志着 BFL 作为新公司的巨大成功。

Flux Context:编辑与叙事

随后发布的 Flux Context 是全球首个开源编辑模型,结合了文本到图像生成与图像编辑功能。在当时,能同时实现这两项功能是一个重大突破。

  • 速度优势:在初代 GPT Image 生成或编辑一张图需要 40 到 50 秒的时代,Context 仅需 7 到 8 秒。
  • 一致性编辑:模型能保持角色高度一致性。例如,去除人脸上的雪花,或将人物移动到 BFL 总部所在地弗莱堡(Freiburg)街头自拍,甚至将背景改为下雪天使人物脸上自然布满雪花。
  • 叙事应用:该模型对视频或动画模型非常有用。用户可以基于单张图片创建故事板(例如一只戴 VR 头显的海鸥在酒吧喝酒),随后添加朋友、改变场景(如走到室外)。这些图像可作为输入帧或结束帧提供给视频模型,生成连贯内容。

Flux 2:视觉智能与多图参考

2024 年 11 月,BFL 发布了 Flux 2,标志着迈向“视觉智能”的一步。作为基础模型,Flux 2 在图像质量上达到了难以分辨 AI 生成的水平,细节表现卓越(如手部静脉血管、佩戴的手镯、动物毛发等)。

  • 多模态能力:不仅限于人物或动物,还支持专业的产品摄影(如华夫饼、骑助力车绑气球的人物)。
  • 多图参考编辑:Flux 2 是第一个支持多图参考的模型,一次最多可接收 10 张图片。
    • 穿搭生成:输入六张图片,提示词为“用这些图片创作一套穿搭”,模型能生成符合逻辑的搭配(如得体的夹克和领带)。
    • 产品放置:例如将沙发图放入消费者客厅场景,想象实际效果。
  • 一致性:在角色、产品和风格的一致性方面表现极佳。

交互式生成速度

2025 年 1 月发布的 Flux 2 更新版本迈向了交互式编辑和生成。

  • 实时速度:生成和编辑图像可在不到一秒内完成。最快编辑仅需 500 毫秒,生成仅需 300 毫秒。

模型训练的挑战:表征对齐

BFL 作为一家研究公司,核心关注点在于公开分享成果。在生成内容(图像、视频、音频)的模型训练过程中,存在一个根本性问题:模型并不理解物理常识。

  • 问题本质:训练过程通常是对图像加随机噪声然后去噪。模型无法学会“玻璃杯不应穿过桌子”或“人坐在椅子上不应穿模”。
  • 传统解决方案:使用“表征对齐(representation alignment)”。引入外部模型(如图像编码器)来理解物理常识,告诉生成模型物体间的正确关系。
  • 效果:使用外部对齐时,模型收敛和降低损失的速度可快 70 倍。

外部编码器的局限性

尽管有效,但依赖外部编码器存在显著缺点:

  1. 扩展上限(Scaling Ceiling):外部模型通常是固定的权重检查点。当生成模型规模扩展时,会受到旁边编码器的限制,无法完全同步扩展。
  2. 模态专门化:编码器通常针对特定模态(如 DinoV2 专精于图像)。若模型需生成图像、音频、视频等多种内容,需为所有模态配备编码器,导致架构变得像“弗兰肯斯坦”一样拼凑。
  3. 目标错位:生成模型的目标是生成内容,而编码器的目标可能是分割物体。两者目标不同,协同效果并不完美。
    • 案例:DinoV3 技术上比 DinoV2 更好,但用于训练生成模型时表现反而变差。目前没有任何明确规则解释为何某些编码器有效而另一些无效。

SelfFlow:新一代训练方法

为了解决上述问题,BFL 在约一个半月前发布了研究论文《SelfFlow》。该方法旨在不使用外部编码器的情况下,直接教会模型表征。

核心机制

SelfFlow 是一种训练多模态生成模型的可扩展方法,采用自监督学习,无需任何其他模型辅助训练。

  • 联合学习:在同一个流程中结合表征学习与生成。
  • 双模型协同
    • 学生模型:始终接收噪声最多的图像,试图去噪。
    • 教师模型:本质上是学生模型的更稳定版本,始终接收低噪声图像。
  • 损失函数:学生模型同时尝试最小化生成损失和表征损失。
  • 优势:只有一个模型,不需要外部组件。扩展模型规模时,只需扩展学生和教师模型,无需担心外部编码器的限制。

性能表现与结果

BFL 在所有模态上训练了一个模型,并与常规 Flow Matching 训练方式进行了对比:

  • 多模态提升:在音频、图像和视频上表现均优于基线。
  • 收敛速度:基线收敛时会遇到平台期,而 SelfFlow 收敛更快且损失持续下降。若训练到两百万步,基线可能效果不再提升甚至变差,而 SelfFlow 损失会继续下降。
  • 文本生成改进
    • 基线问题:文字生成不完美,如“The future is flux“字母缺失,“worlds“拼写错误。
    • SelfFlow 效果:字母排列合理,镜像文字、树上文字均正确。模型学会了表征,知道字母应依次排列。
  • 解剖结构改进:人脸解剖结构比基线模型更自然合理。
  • 视频生成:同一模型也能生成视频。基线生成的俯卧撑姿势奇怪,而 SelfFlow 生成的姿势标准,手臂动作正确,头发处理得当。

研究免责声明

展示的 SelfFlow 相关模型为研究模型,不打算直接用于生产环境。但这代表了 BFL 认为的未来方向:摆脱外部编码器,通过自监督学习实现更好的多模态生成。

Source: https://youtu.be/x8Yb4RidLgM?is=ad8jtmUrL5boUbTU

相似文章

@nini_incrypto_: Hugging Face 把 AI 训练全流程都自动化了啦! 最近有个叫 ml-intern 的项目在 GitHub 爆火,它就像一个 24 小时待命的算法实习生,能独立完成大模型的后训练(Post-training) 1.自主调研:它会…

X AI KOLs Timeline

Hugging Face 推出的 ml-intern 项目在 GitHub 上爆火,能够自主完成论文调研、数据处理、训练脚本编写和模型训练的全流程自动化,无需人工干预即可将小模型(如 Qwen3-1.7B)的性能大幅提升,甚至超越 Claude Code。