Stratum：采用3D堆叠DRAM的系统硬件协同设计以实现高效MoE

Hacker News Top 2026/05/15 12:58 论文

system-hardware-co-design 3d-stackable-dram mixture-of-experts efficient-ai hardware-acceleration memory-architecture

摘要

介绍了Stratum，一种采用3D堆叠DRAM的系统硬件协同设计方法，以高效加速混合专家（MoE）模型。

暂无内容

查看原文

相似文章

Reddit r/LocalLLaMA

讨论了本地AI中密集模型与混合专家（MoE）模型之间的权衡，指出高内存用户除了Qwen 3.5 122B之外，MoE选择有限，并质疑大显存是否是唯一可行的路径。

Reddit r/LocalLLaMA

讨论MoE模型的多层级缓存策略，通过将频繁激活的专家保留在GPU上来提升推理速度，参考了PowerInfer和llama.cpp分支等现有实现。

Hacker News Top

伊利诺伊大学的研究人员展示了一种可扩展的方法，可在严格的热预算内顺序堆叠高性能硅电路，实现单片三维集成，这有望超越传统晶体管微缩，延续摩尔定律。

Papers with Code Trending

SlideFormer 提出了一种异构协同设计，用于在单GPU上进行全参数LLM微调，利用GPU/CPU/RAM/NVMe及其层滑动引擎和优化的Triton内核，在单张RTX 4090上实现对123B+模型的微调，吞吐量显著提升。

arXiv cs.LG

本文介绍了 DisagMoE，一种 MoE 训练系统，通过将注意力层和前馈网络（FFN）层解耦到不同的 GPU 组来优化计算与通信的重叠。该系统基于 Megatron-LM 实现，通过解决节点间通信瓶颈，在 H800 集群上实现了高达 1.8 倍的加速。