Stratum:采用3D堆叠DRAM的系统硬件协同设计以实现高效MoE
摘要
介绍了Stratum,一种采用3D堆叠DRAM的系统硬件协同设计方法,以高效加速混合专家(MoE)模型。
暂无内容
相似文章
内存富裕/显卡贫瘠的人错了吗?
讨论了本地AI中密集模型与混合专家(MoE)模型之间的权衡,指出高内存用户除了Qwen 3.5 122B之外,MoE选择有限,并质疑大显存是否是唯一可行的路径。
DisagMoE:通过解耦 AF-Pipe 并行实现计算与通信重叠的 MoE 训练
本文介绍了 DisagMoE,一种 MoE 训练系统,通过将注意力层和前馈网络(FFN)层解耦到不同的 GPU 组来优化计算与通信的重叠。该系统基于 Megatron-LM 实现,通过解决节点间通信瓶颈,在 H800 集群上实现了高达 1.8 倍的加速。
昨天我看到一篇关于 δ-mem 并与 openclaw 集成的新研究论文
一篇关于 δ-mem 的新研究论文在与 openclaw 集成后,将智能体响应质量提升了 7-32%。该项目目前仅适用于 mlx 和 Qwen3:4b,但预计会推出其他模型的适配器。
跨异构任务的自演化LLM记忆抽取
研究者推出BEHEMOTH基准与CluE聚类提示优化,使LLM能从多样化任务中抽取并保留异构记忆,相比既往自演化框架提升9%。
@LinQingV: 之前做LLM推理芯片架构探索的时候,我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重,但底层逻辑都在同一个框架里:片上大SRAM + dataf…
The article analyzes the AI inference ASIC architectures of Groq, SambaNova, Tenstorrent, and Cerebras, highlighting Cerebras's unique wafer-scale engine design. It discusses the benefits of deterministic latency and high bandwidth for LLM inference, while noting challenges like yield, cost, and KV cache bottlenecks.