Stratum:采用3D堆叠DRAM的系统硬件协同设计以实现高效MoE
摘要
介绍了Stratum,一种采用3D堆叠DRAM的系统硬件协同设计方法,以高效加速混合专家(MoE)模型。
暂无内容
相似文章
内存富裕/显卡贫瘠的人错了吗?
讨论了本地AI中密集模型与混合专家(MoE)模型之间的权衡,指出高内存用户除了Qwen 3.5 122B之外,MoE选择有限,并质疑大显存是否是唯一可行的路径。
多层级MoE缓存
讨论MoE模型的多层级缓存策略,通过将频繁激活的专家保留在GPU上来提升推理速度,参考了PowerInfer和llama.cpp分支等现有实现。
构建芯片的新方法:顺序堆叠硅片以延续摩尔定律
伊利诺伊大学的研究人员展示了一种可扩展的方法,可在严格的热预算内顺序堆叠高性能硅电路,实现单片三维集成,这有望超越传统晶体管微缩,延续摩尔定律。
单GPU微调的高效异构协同设计
SlideFormer 提出了一种异构协同设计,用于在单GPU上进行全参数LLM微调,利用GPU/CPU/RAM/NVMe及其层滑动引擎和优化的Triton内核,在单张RTX 4090上实现对123B+模型的微调,吞吐量显著提升。
DisagMoE:通过解耦 AF-Pipe 并行实现计算与通信重叠的 MoE 训练
本文介绍了 DisagMoE,一种 MoE 训练系统,通过将注意力层和前馈网络(FFN)层解耦到不同的 GPU 组来优化计算与通信的重叠。该系统基于 Megatron-LM 实现,通过解决节点间通信瓶颈,在 H800 集群上实现了高达 1.8 倍的加速。