我构建了‘第一个’流匹配图像生成器,以下是我的心得 [P]

Reddit r/MachineLearning 模型

摘要

作者分享了构建一个小型流匹配图像生成模型的经历,该模型基于 Apple 表情符号图像进行训练,描述了最初失败的方法以及后来成功转向使用 RGB 通道、残差块和注意力的过程。

今天我发布了我的第一个流匹配图像生成模型!这是一个在 2024 款 MPS Macbook Pro 上训练的玩具示例,使用了少量图像样本——具体来说是 Apple 表情符号库及其文本标签。因此,它不是一个大模型(参数约 470 万),但这是一次令人难以置信的学习经历。 我最初的方法(失败了):我最初尝试将表情符号图像转为灰度图,并采用一个极其基础的 CNN 将灰度通道扩展为 64 个特征图。我应用了 ReLU 激活,重复三次,然后合并回一个单一层,以得到速度场的最终 theta 预测。我将其与 CLIP 词向量嵌入(基于官方 Apple 表情符号描述)以及一个简单的时间编码相结合,用于在噪声向量场 (x_0) 和目标图像向量场 (x_1) 之间插值,以找到时间 t 的状态。这种方法表达力不足,模型无法真正学会预测速度场,尤其是因为我使用了 float32 来保持模型轻量。 转折点(什么有效):为了解决这个问题,我改为使用完整的 RGB 通道而非灰度图,实现了残差块,并添加了自注意力/交叉注意力。我还增加了特征通道数,使网络能保留更多关于表情符号本身的信息。这次效果要好得多。在预测表情符号的速度场时,颜色是一个非常关键的启发式信息,而更大的容量使得文本嵌入在推理过程中能与视觉特征形成更有意义的关系。 该模型完全免费,可以在这里试用:https://emoji-generator-69.web.app/
查看原文

相似文章

随流而动:文本到图像模型中文本词元间的信息流动

arXiv cs.CL

本文研究了文本到图像模型中语义信息在文本词元间的分布情况,发现信息集中程度和跨条目交互显著影响图像生成的语义对齐。作者采用修补技术证明,在编码阶段进行简单干预即可提升对齐质量。

Qwen-Image-Flash(26分钟阅读)

TLDR AI

本文来自阿里巴巴,重新审视了视觉生成模型的少步蒸馏,聚焦于训练配方因素如数据组成、教师指导和任务混合,以Qwen-Image-2.0为案例研究,开发了Qwen-Image-Flash。