Stratum：采用3D堆叠DRAM的系统硬件协同设计以实现高效MoE

Hacker News Top 2026/05/15 12:58 论文

system-hardware-co-design 3d-stackable-dram mixture-of-experts efficient-ai hardware-acceleration memory-architecture

摘要

介绍了Stratum，一种采用3D堆叠DRAM的系统硬件协同设计方法，以高效加速混合专家（MoE）模型。

暂无内容

查看原文

相似文章

内存富裕/显卡贫瘠的人错了吗？

Reddit r/LocalLLaMA

讨论了本地AI中密集模型与混合专家（MoE）模型之间的权衡，指出高内存用户除了Qwen 3.5 122B之外，MoE选择有限，并质疑大显存是否是唯一可行的路径。

DisagMoE：通过解耦 AF-Pipe 并行实现计算与通信重叠的 MoE 训练

arXiv cs.LG

本文介绍了 DisagMoE，一种 MoE 训练系统，通过将注意力层和前馈网络（FFN）层解耦到不同的 GPU 组来优化计算与通信的重叠。该系统基于 Megatron-LM 实现，通过解决节点间通信瓶颈，在 H800 集群上实现了高达 1.8 倍的加速。

昨天我看到一篇关于 δ-mem 并与 openclaw 集成的新研究论文

Reddit r/openclaw

一篇关于 δ-mem 的新研究论文在与 openclaw 集成后，将智能体响应质量提升了 7-32%。该项目目前仅适用于 mlx 和 Qwen3:4b，但预计会推出其他模型的适配器。

跨异构任务的自演化LLM记忆抽取

Hugging Face Daily Papers

研究者推出BEHEMOTH基准与CluE聚类提示优化，使LLM能从多样化任务中抽取并保留异构记忆，相比既往自演化框架提升9%。

@LinQingV: 之前做LLM推理芯片架构探索的时候，我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重，但底层逻辑都在同一个框架里：片上大SRAM + dataf…

X AI KOLs Timeline

The article analyzes the AI inference ASIC architectures of Groq, SambaNova, Tenstorrent, and Cerebras, highlighting Cerebras's unique wafer-scale engine design. It discusses the benefits of deterministic latency and high bandwidth for LLM inference, while noting challenges like yield, cost, and KV cache bottlenecks.

提交意见反馈