在微控制器上运行DCGAN推理:1260万参数,512KB SRAM,26秒生成,纯C实现 [P]

Reddit r/MachineLearning 论文

摘要

演示在低成本RISC-V微控制器(CH32H417)上运行具有1260万int8量化参数的DCGAN,使用纯C推理和量子熵采样,在26秒内生成64x64的猫脸图像。

分享一个进展:我在双核RISC-V微控制器CH32H417上运行了DCGAN,生成了64x64的猫脸图像。这是一款新型RISC-V MCU,没有TFLite、CMSIS NN和外部内存。它采用纯C推理引擎,输出与PyTorch参考结果比特完全一致。模型具有1260万参数,采用int8每通道量化。中间激活存储在DTCM中,层权重从SD卡通过双缓冲流式传输,当前层计算的同时下一层加载。总可用SRAM为512KB,由两个核心和推理引擎共享,生成一张图像的时间为26秒——实际上可以更快,但SD卡访问速度是瓶颈而非计算。z向量从200字节的量子随机数据(ANU QRNG真空涨落源)中播种,通过Box-Muller变换生成潜在向量。这对图像质量并非严格必要,但作为艺术装置项目的有趣约束。生成的猫根据单个量子比特被分类为“有动力”或“无动力”,从包含四个片段槽的短语库中选择,组合成131,072种可能的语音判决之一,通过板载DAC输出……据我所知,还没有人在这些低成本RISC-V微控制器上运行GAN推理,因为ARM有CMSIS NN生态系统支持这类任务,但RISC-V MCU(尤其是CH32系列)完全没有此类支持,因此整个推理引擎是从零编写的。论文:[TinyGAN: Generative Image Synthesis on a RISC-V Microcontroller with Quantum Entropy Sampling](https://zenodo.org/records/20371371)
查看原文

相似文章

Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

Reddit r/LocalLLaMA

使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。