@stephenbtl: My talk at @aiDotEngineer is now online. I talked about our research and where @bfl_ml is heading. Thanks @swyx for the…

X AI KOLs Following 2026/05/11 06:12 论文

black-forest-labs flux selfflow multimodal self-supervised generative-ai ai-research

摘要

Black Forest Labs 在 AI Engineer 大会上分享了 Flux 系列模型的演进历程，并发布了 SelfFlow 研究论文，提出了一种无需外部编码器的自监督多模态训练方法。

My talk at @aiDotEngineer is now online. I talked about our research and where @bfl_ml is heading. Thanks @swyx for the invite https://t.co/Qs4Hv0UDb1

查看原文

查看缓存全文

缓存时间: 2026/05/11 14:46

My talk at @aiDotEngineer is now online.

I talked about our research and where @bfl_ml is heading.

Thanks @swyx for the invite

https://t.co/Qs4Hv0UDb1

TL;DR：Black Forest Labs 回顾了 Flux 系列模型的演进历程，并发布了 SelfFlow 研究论文，提出了一种无需外部编码器的自监督多模态训练方法。

Black Forest Labs 与 Flux 模型背景

Black Forest Labs（BFL）是 Stable Diffusion、Latent Diffusion 以及 Flux 模型背后的核心团队。团队在学术界拥有超过 20 万次的引用，不仅致力于开发模型，还与企业合作应用这些技术。客户包括 Microsoft、Adobe、Canva、Mistral 等知名公司。

BFL 的首要运营原则是发布最先进（SOTA）的模型，并通过公开分享研究成果推动领域共同进步。公司始于 2024 年 8 月发布的 Flux 1，这是其第一次重大突破。

Flux 系列模型演进

Flux 1：开源突破

Flux 1 主打文本到图像生成，是一个改变游戏规则的特性，因为它能在笔记本电脑上运行。与其他体积更大的模型相比，Flux 1 在生成质量尤其是人体结构方面表现优异。发布当时，它是 Hugging Face 上点赞最高的模型，标志着 BFL 作为新公司的巨大成功。

Flux Context：编辑与叙事

随后发布的 Flux Context 是全球首个开源编辑模型，结合了文本到图像生成与图像编辑功能。在当时，能同时实现这两项功能是一个重大突破。

速度优势：在初代 GPT Image 生成或编辑一张图需要 40 到 50 秒的时代，Context 仅需 7 到 8 秒。
一致性编辑：模型能保持角色高度一致性。例如，去除人脸上的雪花，或将人物移动到 BFL 总部所在地弗莱堡（Freiburg）街头自拍，甚至将背景改为下雪天使人物脸上自然布满雪花。
叙事应用：该模型对视频或动画模型非常有用。用户可以基于单张图片创建故事板（例如一只戴 VR 头显的海鸥在酒吧喝酒），随后添加朋友、改变场景（如走到室外）。这些图像可作为输入帧或结束帧提供给视频模型，生成连贯内容。

Flux 2：视觉智能与多图参考

2024 年 11 月，BFL 发布了 Flux 2，标志着迈向“视觉智能”的一步。作为基础模型，Flux 2 在图像质量上达到了难以分辨 AI 生成的水平，细节表现卓越（如手部静脉血管、佩戴的手镯、动物毛发等）。

多模态能力：不仅限于人物或动物，还支持专业的产品摄影（如华夫饼、骑助力车绑气球的人物）。
多图参考编辑：Flux 2 是第一个支持多图参考的模型，一次最多可接收 10 张图片。
- 穿搭生成：输入六张图片，提示词为“用这些图片创作一套穿搭”，模型能生成符合逻辑的搭配（如得体的夹克和领带）。
- 产品放置：例如将沙发图放入消费者客厅场景，想象实际效果。
一致性：在角色、产品和风格的一致性方面表现极佳。

交互式生成速度

2025 年 1 月发布的 Flux 2 更新版本迈向了交互式编辑和生成。

实时速度：生成和编辑图像可在不到一秒内完成。最快编辑仅需 500 毫秒，生成仅需 300 毫秒。

模型训练的挑战：表征对齐

BFL 作为一家研究公司，核心关注点在于公开分享成果。在生成内容（图像、视频、音频）的模型训练过程中，存在一个根本性问题：模型并不理解物理常识。

问题本质：训练过程通常是对图像加随机噪声然后去噪。模型无法学会“玻璃杯不应穿过桌子”或“人坐在椅子上不应穿模”。
传统解决方案：使用“表征对齐（representation alignment）”。引入外部模型（如图像编码器）来理解物理常识，告诉生成模型物体间的正确关系。
效果：使用外部对齐时，模型收敛和降低损失的速度可快 70 倍。

外部编码器的局限性

尽管有效，但依赖外部编码器存在显著缺点：

扩展上限（Scaling Ceiling）：外部模型通常是固定的权重检查点。当生成模型规模扩展时，会受到旁边编码器的限制，无法完全同步扩展。
模态专门化：编码器通常针对特定模态（如 DinoV2 专精于图像）。若模型需生成图像、音频、视频等多种内容，需为所有模态配备编码器，导致架构变得像“弗兰肯斯坦”一样拼凑。
目标错位：生成模型的目标是生成内容，而编码器的目标可能是分割物体。两者目标不同，协同效果并不完美。
- 案例：DinoV3 技术上比 DinoV2 更好，但用于训练生成模型时表现反而变差。目前没有任何明确规则解释为何某些编码器有效而另一些无效。

SelfFlow：新一代训练方法

为了解决上述问题，BFL 在约一个半月前发布了研究论文《SelfFlow》。该方法旨在不使用外部编码器的情况下，直接教会模型表征。

核心机制

SelfFlow 是一种训练多模态生成模型的可扩展方法，采用自监督学习，无需任何其他模型辅助训练。

联合学习：在同一个流程中结合表征学习与生成。
双模型协同：
- 学生模型：始终接收噪声最多的图像，试图去噪。
- 教师模型：本质上是学生模型的更稳定版本，始终接收低噪声图像。
损失函数：学生模型同时尝试最小化生成损失和表征损失。
优势：只有一个模型，不需要外部组件。扩展模型规模时，只需扩展学生和教师模型，无需担心外部编码器的限制。

性能表现与结果

BFL 在所有模态上训练了一个模型，并与常规 Flow Matching 训练方式进行了对比：

多模态提升：在音频、图像和视频上表现均优于基线。
收敛速度：基线收敛时会遇到平台期，而 SelfFlow 收敛更快且损失持续下降。若训练到两百万步，基线可能效果不再提升甚至变差，而 SelfFlow 损失会继续下降。
文本生成改进：
- 基线问题：文字生成不完美，如“The future is flux“字母缺失，“worlds“拼写错误。
- SelfFlow 效果：字母排列合理，镜像文字、树上文字均正确。模型学会了表征，知道字母应依次排列。
解剖结构改进：人脸解剖结构比基线模型更自然合理。
视频生成：同一模型也能生成视频。基线生成的俯卧撑姿势奇怪，而 SelfFlow 生成的姿势标准，手臂动作正确，头发处理得当。

研究免责声明

展示的 SelfFlow 相关模型为研究模型，不打算直接用于生产环境。但这代表了 BFL 认为的未来方向：摆脱外部编码器，通过自监督学习实现更好的多模态生成。

Source: https://youtu.be/x8Yb4RidLgM?is=ad8jtmUrL5boUbTU

相似文章

@nini_incrypto_: Hugging Face 把 AI 训练全流程都自动化了啦！最近有个叫 ml-intern 的项目在 GitHub 爆火，它就像一个 24 小时待命的算法实习生，能独立完成大模型的后训练（Post-training） 1.自主调研：它会…

X AI KOLs Timeline

Hugging Face 推出的 ml-intern 项目在 GitHub 上爆火，能够自主完成论文调研、数据处理、训练脚本编写和模型训练的全流程自动化，无需人工干预即可将小模型（如 Qwen3-1.7B）的性能大幅提升，甚至超越 Claude Code。

@DayShuai: 明天 volunteer 了在 Yang Zhang lab 组会上分享我自己的 AI loop。同一套 OS pattern 最近半年在 automath 和 newmath 跑出 3,400+ 0-axiom Lean 4 定理、5×…

X AI KOLs Timeline

分享在Yang Zhang实验室组会上的AI loop经验，包括自动化定理证明、多机器协作、蒸馏私人经验库等，并提及Fields奖得主使用AI解决数学难题的例子。

@stephenbtl: My talk at @aiDotEngineer is now online. I talked about our research and where @bfl_ml is heading. Thanks @swyx for the…

Black Forest Labs 与 Flux 模型背景

Flux 系列模型演进

Flux 1：开源突破

Flux Context：编辑与叙事

Flux 2：视觉智能与多图参考

交互式生成速度

模型训练的挑战：表征对齐

外部编码器的局限性

SelfFlow：新一代训练方法

核心机制

性能表现与结果

研究免责声明

相似文章

@nini_incrypto_: Hugging Face 把 AI 训练全流程都自动化了啦！最近有个叫 ml-intern 的项目在 GitHub 爆火，它就像一个 24 小时待命的算法实习生，能独立完成大模型的后训练（Post-training） 1.自主调研：它会…

@DayShuai: 明天 volunteer 了在 Yang Zhang lab 组会上分享我自己的 AI loop。同一套 OS pattern 最近半年在 automath 和 newmath 跑出 3,400+ 0-axiom Lean 4 定理、5×…

@Prince_Canuma: 我在 @aiDotEngineer 的演讲已上线：“基于 MLX 的端侧智能”。非常感谢 @swyx 和团队的邀请——ha…

@JohnNguyen: 今天我们发布了 CVPR 2026 论文 Flowception 的代码。Flowception 在完全双向序列模型和自回归生成之间架起了桥梁……

@ma_zhenyuan: https://x.com/ma_zhenyuan/status/2057702858800370052

提交意见反馈

Black Forest Labs 与 Flux 模型背景

Flux 系列模型演进

Flux 1：开源突破

Flux Context：编辑与叙事

Flux 2：视觉智能与多图参考

交互式生成速度

模型训练的挑战：表征对齐

外部编码器的局限性

SelfFlow：新一代训练方法

核心机制

性能表现与结果

研究免责声明

相似文章

@nini_incrypto_: Hugging Face 把 AI 训练全流程都自动化了啦！ 最近有个叫 ml-intern 的项目在 GitHub 爆火，它就像一个 24 小时待命的算法实习生，能独立完成大模型的后训练（Post-training） 1.自主调研：它会…

@DayShuai: 明天 volunteer 了在 Yang Zhang lab 组会上分享我自己的 AI loop。同一套 OS pattern 最近半年在 automath 和 newmath 跑出 3,400+ 0-axiom Lean 4 定理、5×…

@Prince_Canuma: 我在 @aiDotEngineer 的演讲已上线：“基于 MLX 的端侧智能”。非常感谢 @swyx 和团队的邀请——ha…

@__JohnNguyen__: 今天我们发布了 CVPR 2026 论文 Flowception 的代码。Flowception 在完全双向序列模型和自回归生成之间架起了桥梁……

@ma_zhenyuan: https://x.com/ma_zhenyuan/status/2057702858800370052

提交意见反馈

@nini_incrypto_: Hugging Face 把 AI 训练全流程都自动化了啦！最近有个叫 ml-intern 的项目在 GitHub 爆火，它就像一个 24 小时待命的算法实习生，能独立完成大模型的后训练（Post-training） 1.自主调研：它会…

@JohnNguyen: 今天我们发布了 CVPR 2026 论文 Flowception 的代码。Flowception 在完全双向序列模型和自回归生成之间架起了桥梁……