我构建了‘第一个’流匹配图像生成器，以下是我的心得 [P]

Reddit r/MachineLearning 2026/07/04 05:46 模型

摘要

作者分享了构建一个小型流匹配图像生成模型的经历，该模型基于 Apple 表情符号图像进行训练，描述了最初失败的方法以及后来成功转向使用 RGB 通道、残差块和注意力的过程。

今天我发布了我的第一个流匹配图像生成模型！这是一个在 2024 款 MPS Macbook Pro 上训练的玩具示例，使用了少量图像样本——具体来说是 Apple 表情符号库及其文本标签。因此，它不是一个大模型（参数约 470 万），但这是一次令人难以置信的学习经历。我最初的方法（失败了）：我最初尝试将表情符号图像转为灰度图，并采用一个极其基础的 CNN 将灰度通道扩展为 64 个特征图。我应用了 ReLU 激活，重复三次，然后合并回一个单一层，以得到速度场的最终 theta 预测。我将其与 CLIP 词向量嵌入（基于官方 Apple 表情符号描述）以及一个简单的时间编码相结合，用于在噪声向量场 (x_0) 和目标图像向量场 (x_1) 之间插值，以找到时间 t 的状态。这种方法表达力不足，模型无法真正学会预测速度场，尤其是因为我使用了 float32 来保持模型轻量。转折点（什么有效）：为了解决这个问题，我改为使用完整的 RGB 通道而非灰度图，实现了残差块，并添加了自注意力/交叉注意力。我还增加了特征通道数，使网络能保留更多关于表情符号本身的信息。这次效果要好得多。在预测表情符号的速度场时，颜色是一个非常关键的启发式信息，而更大的容量使得文本嵌入在推理过程中能与视觉特征形成更有意义的关系。该模型完全免费，可以在这里试用：https://emoji-generator-69.web.app/

查看原文

我构建了‘第一个’流匹配图像生成器，以下是我的心得 [P]

相似文章

@jiqizhixin：如果只需要一步就能生成高质量图像，而不是数百步？斯坦福和字节跳动推出 W-Flow……

Bootstrap Your Generator: 基于流匹配的非配对视觉编辑

MIMFlow: 集成掩码图像建模与归一化流的端到端图像生成

随流而动：文本到图像模型中文本词元间的信息流动

Qwen-Image-Flash（26分钟阅读）

提交意见反馈