从零开始在iPod touch 4图像上训练视觉模型

Reddit r/LocalLLaMA 模型

摘要

使用iPod touch 4拍摄的350张红色一次性杯子的照片,从零开始训练了一个DCGAN模型,生成的结果让人联想到早期的DALL-E。

我在iPod touch 4拍摄的照片上从零开始训练了一个DCGAN模型。我了解从零训练视觉模型所需的规模,所以我先从单个物品的照片开始。我拍摄了大约350张红色一次性杯子的照片,背景和光照条件各不相同。模型生成的图像让我想起2022年OpenAI的DALL-E。我打算总共拍摄大约5000张照片,想看看模型能否捕捉到iPod摄像头特有的传感器伪影。
查看原文

相似文章

改进的一致性模型训练技术

OpenAI Blog

OpenAI 展示了改进的一致性模型训练技术,无需蒸馏即可实现高质量单步图像生成,通过新型损失函数和训练策略在 CIFAR-10 和 ImageNet 64×64 上取得显著的 FID 改进。

Qwen-Image-Flash(26分钟阅读)

TLDR AI

本文来自阿里巴巴,重新审视了视觉生成模型的少步蒸馏,聚焦于训练配方因素如数据组成、教师指导和任务混合,以Qwen-Image-2.0为案例研究,开发了Qwen-Image-Flash。

用图像思考

OpenAI Blog

OpenAI 发布了 o3 和 o4-mini 模型,这些模型能够在链式思维过程中对图像进行推理,通过裁剪和缩放等原生图像操作工具实现视觉理解,无需额外的专用模型。这些模型在包括 STEM 问题、图表阅读和视觉搜索任务在内的多模态基准上达到了最先进的性能。