在微控制器上运行DCGAN推理:1260万参数,512KB SRAM,26秒生成,纯C实现 [P]
摘要
演示在低成本RISC-V微控制器(CH32H417)上运行具有1260万int8量化参数的DCGAN,使用纯C推理和量子熵采样,在26秒内生成64x64的猫脸图像。
分享一个进展:我在双核RISC-V微控制器CH32H417上运行了DCGAN,生成了64x64的猫脸图像。这是一款新型RISC-V MCU,没有TFLite、CMSIS NN和外部内存。它采用纯C推理引擎,输出与PyTorch参考结果比特完全一致。模型具有1260万参数,采用int8每通道量化。中间激活存储在DTCM中,层权重从SD卡通过双缓冲流式传输,当前层计算的同时下一层加载。总可用SRAM为512KB,由两个核心和推理引擎共享,生成一张图像的时间为26秒——实际上可以更快,但SD卡访问速度是瓶颈而非计算。z向量从200字节的量子随机数据(ANU QRNG真空涨落源)中播种,通过Box-Muller变换生成潜在向量。这对图像质量并非严格必要,但作为艺术装置项目的有趣约束。生成的猫根据单个量子比特被分类为“有动力”或“无动力”,从包含四个片段槽的短语库中选择,组合成131,072种可能的语音判决之一,通过板载DAC输出……据我所知,还没有人在这些低成本RISC-V微控制器上运行GAN推理,因为ARM有CMSIS NN生态系统支持这类任务,但RISC-V MCU(尤其是CH32系列)完全没有此类支持,因此整个推理引擎是从零编写的。论文:[TinyGAN: Generative Image Synthesis on a RISC-V Microcontroller with Quantum Entropy Sampling](https://zenodo.org/records/20371371)
相似文章
Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s
使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。
从零开始在iPod touch 4图像上训练视觉模型
使用iPod touch 4拍摄的350张红色一次性杯子的照片,从零开始训练了一个DCGAN模型,生成的结果让人联想到早期的DALL-E。
JANGQ-AI/MiniMax-M2.7-JANGTQ_K : MiniMax M2.7 的混合位量化版本 - 磁盘占用 74 GB
发布了 MiniMax M2.7 模型的混合位量化版本,优化至 74 GB,以便在 Apple Silicon 设备上高效进行本地推理。
48GB 显存实现 500k 上下文!!- 21 tok/s (编码)
一位用户报告成功部署了量化版 Nemotron-3 Super 模型,该模型支持 500k 上下文和代理编码,运行在消费级双 Titan RTX 硬件上。
@iotcoi:Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单颗 49W GB10 上峰值 200 tokens/s,平均解码 136 tokens/s
量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化,256k 上下文、10 智能体并发,峰值达 200 tok/s,平均 136 tok/s。