@shreyansh_26: 当 M 和 N 很小而 K 很大时,如何让矩阵乘法变快?(MoE routers、small-batch decode。)Decompose-K: …
摘要
一种加速矩阵乘法的技术,适用于 M 和 N 较小而 K 较大的情况(如 MoE routers 和 small-batch decoding),通过分解 K 并并行运行部分 GEMM,然后将 epilogue 折叠到归约存储中。该方法使用自定义 Triton 内核,在大多数形状上击败了 PyTorch Inductor。
查看缓存全文
缓存时间: 2026/06/23 16:12
当 M 和 N 极小、K 极大时,如何让矩阵乘法(matmul)变快?(MoE 路由器、小批量解码。)
分解 K:将 K 拆分,并行运行 S 个部分 GEMM,求和,并将后处理折叠到归约存储中。
新博文:从 torch.compile → 自定义算子自动调优 → 一个手写 Triton 内核,在 26/28 种形状上击败 Inductor。
基于 @pz_ai1 和 Elias Ellison 在 PyTorch Conf 的演讲。
相似文章
@shreyansh_26: https://x.com/shreyansh_26/status/2069125463860302212
本文介绍了Decompose-K技术,用于加速瘦高大K矩阵乘法,通过将K维度分割成块,执行批量矩阵乘法,并求和部分结果。还提供了PyTorch实现和基准测试,显示对于形状不佳的矩阵乘法,相比标准torch.compile有显著加速。
在老款GTX 1080(8GB显存,128k上下文)上,约30B的MoE模型达到24+ tok/s的推理速度
一位开发者展示了如何使用llama.cpp,通过MoE卸载和TurboQuant KV缓存量化技术,在老款GTX 1080(8GB显存)上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型,达到24+ tok/s的推理速度,并揭示了针对Gemma MTP投机解码的优化技巧。
优化模型以快速进行代码生成(8分钟阅读)
Morph LLC描述了三种关键技术——基于编码输出训练投机模型、在廉价GPU上自动搜索内核、以及编写自定义互连——以大幅加速像Qwen和DeepSeek这样的开放模型在编码代理工作负载上的运行,实现了最高3倍的投机解码加速,并在7000美元的GPU上达到97-162 tok/s。
@jun_song: 如果我们能弄清楚如何将 MoE 模型中仅激活的参数加载到 GPU 中,而不是加载全部权重,那将是颠覆性的……
作者推测,如果仅将 MoE 模型的激活参数加载到 GPU 上,将能极大提高运行效率,并允许在本地运行 Kimi 这样的大型模型,尽管作者承认目前这尚不切实际。
2倍 tok/s(在1块MI50上从19.4 tok/s提升到38.1 tok/s)尝试类似推测解码的假设……但不是用额外的侧模型,而是利用我可以同时运行多个计算,就好像内存里加载了两份Qwen3.6-27B一样——小量化不占用所有可用算力。
打包双推理(PTI)是一种通过单批解码中运行多个token序列来实现约2倍LLM吞吐量的技术,它利用了llama.cpp中的权重共享,无需草稿模型或额外VRAM。