在微控制器上运行DCGAN推理：1260万参数，512KB SRAM，26秒生成，纯C实现 [P]

Reddit r/MachineLearning 2026/05/25 18:22 论文

risc-v microcontroller dcgan inference quantization edge-ai tiny-machine-learning

摘要

演示在低成本RISC-V微控制器（CH32H417）上运行具有1260万int8量化参数的DCGAN，使用纯C推理和量子熵采样，在26秒内生成64x64的猫脸图像。

分享一个进展：我在双核RISC-V微控制器CH32H417上运行了DCGAN，生成了64x64的猫脸图像。这是一款新型RISC-V MCU，没有TFLite、CMSIS NN和外部内存。它采用纯C推理引擎，输出与PyTorch参考结果比特完全一致。模型具有1260万参数，采用int8每通道量化。中间激活存储在DTCM中，层权重从SD卡通过双缓冲流式传输，当前层计算的同时下一层加载。总可用SRAM为512KB，由两个核心和推理引擎共享，生成一张图像的时间为26秒——实际上可以更快，但SD卡访问速度是瓶颈而非计算。z向量从200字节的量子随机数据（ANU QRNG真空涨落源）中播种，通过Box-Muller变换生成潜在向量。这对图像质量并非严格必要，但作为艺术装置项目的有趣约束。生成的猫根据单个量子比特被分类为“有动力”或“无动力”，从包含四个片段槽的短语库中选择，组合成131,072种可能的语音判决之一，通过板载DAC输出……据我所知，还没有人在这些低成本RISC-V微控制器上运行GAN推理，因为ARM有CMSIS NN生态系统支持这类任务，但RISC-V MCU（尤其是CH32系列）完全没有此类支持，因此整个推理引擎是从零编写的。论文：[TinyGAN: Generative Image Synthesis on a RISC-V Microcontroller with Quantum Entropy Sampling](https://zenodo.org/records/20371371)

查看原文

在微控制器上运行DCGAN推理：1260万参数，512KB SRAM，26秒生成，纯C实现 [P]

相似文章

Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

从零开始在iPod touch 4图像上训练视觉模型

JANGQ-AI/MiniMax-M2.7-JANGTQ_K : MiniMax M2.7 的混合位量化版本 - 磁盘占用 74 GB

48GB 显存实现 500k 上下文！！- 21 tok/s (编码)

@iotcoi：Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 上峰值 200 tokens/s，平均解码 136 tokens/s

提交意见反馈