从零开始在iPod touch 4图像上训练视觉模型

Reddit r/LocalLLaMA 2026/05/21 05:06 模型

machine-learning computer-vision generative-models dcgan training-from-scratch image-generation

摘要

使用iPod touch 4拍摄的350张红色一次性杯子的照片，从零开始训练了一个DCGAN模型，生成的结果让人联想到早期的DALL-E。

我在iPod touch 4拍摄的照片上从零开始训练了一个DCGAN模型。我了解从零训练视觉模型所需的规模，所以我先从单个物品的照片开始。我拍摄了大约350张红色一次性杯子的照片，背景和光照条件各不相同。模型生成的图像让我想起2022年OpenAI的DALL-E。我打算总共拍摄大约5000张照片，想看看模型能否捕捉到iPod摄像头特有的传感器伪影。

查看原文

相似文章

本地iPhone AI图像生成正变得实用 - 每张图片仅需3秒

Reddit r/ArtificialInteligence

基准测试显示，在iPhone上本地运行Stable Diffusion 1.5，使用Realistic Vision V5.1 Hyper等优化模型，生成512x512图像最快仅需3.1秒，使得设备端AI图像生成变得切实可行。

在微控制器上运行DCGAN推理：1260万参数，512KB SRAM，26秒生成，纯C实现 [P]

Reddit r/MachineLearning

演示在低成本RISC-V微控制器（CH32H417）上运行具有1260万int8量化参数的DCGAN，使用纯C推理和量子熵采样，在26秒内生成64x64的猫脸图像。

改进的一致性模型训练技术

OpenAI Blog

OpenAI 展示了改进的一致性模型训练技术，无需蒸馏即可实现高质量单步图像生成，通过新型损失函数和训练策略在 CIFAR-10 和 ImageNet 64×64 上取得显著的 FID 改进。

Qwen-Image-Flash（26分钟阅读）

TLDR AI

本文来自阿里巴巴，重新审视了视觉生成模型的少步蒸馏，聚焦于训练配方因素如数据组成、教师指导和任务混合，以Qwen-Image-2.0为案例研究，开发了Qwen-Image-Flash。

用图像思考