Stratum:采用3D堆叠DRAM的系统硬件协同设计以实现高效MoE

Hacker News Top 论文

摘要

介绍了Stratum,一种采用3D堆叠DRAM的系统硬件协同设计方法,以高效加速混合专家(MoE)模型。

暂无内容
查看原文

相似文章

内存富裕/显卡贫瘠的人错了吗?

Reddit r/LocalLLaMA

讨论了本地AI中密集模型与混合专家(MoE)模型之间的权衡,指出高内存用户除了Qwen 3.5 122B之外,MoE选择有限,并质疑大显存是否是唯一可行的路径。

多层级MoE缓存

Reddit r/LocalLLaMA

讨论MoE模型的多层级缓存策略,通过将频繁激活的专家保留在GPU上来提升推理速度,参考了PowerInfer和llama.cpp分支等现有实现。

单GPU微调的高效异构协同设计

Papers with Code Trending

SlideFormer 提出了一种异构协同设计,用于在单GPU上进行全参数LLM微调,利用GPU/CPU/RAM/NVMe及其层滑动引擎和优化的Triton内核,在单张RTX 4090上实现对123B+模型的微调,吞吐量显著提升。