@shreyansh_26: 当 M 和 N 很小而 K 很大时，如何让矩阵乘法变快？（MoE routers、small-batch decode。）Decompose-K: …

X AI KOLs Timeline 2026/06/22 18:31 工具

matmul-optimization moe-routers small-batch-decode decompose-k triton-kernel torch-compile autotuning

摘要

一种加速矩阵乘法的技术，适用于 M 和 N 较小而 K 较大的情况（如 MoE routers 和 small-batch decoding），通过分解 K 并并行运行部分 GEMM，然后将 epilogue 折叠到归约存储中。该方法使用自定义 Triton 内核，在大多数形状上击败了 PyTorch Inductor。

当 M 和 N 很小而 K 很大时，如何让矩阵乘法变快？（MoE routers、small-batch decode。） Decompose-K：将 K 分解，并行运行 S 个部分 GEMM，求和，并将 epilogue 折叠到归约存储中。新博文：从 torch.compile → 自定义算子自动调优 → 一个手写的 Triton 内核，在 26/28 种形状上击败了 Inductor。基于 PyTorch Conf 上 @pz_ai1 和 Elias Ellison 的演讲。

查看原文

查看缓存全文

缓存时间: 2026/06/23 16:12

当 M 和 N 极小、K 极大时，如何让矩阵乘法（matmul）变快？（MoE 路由器、小批量解码。）

分解 K：将 K 拆分，并行运行 S 个部分 GEMM，求和，并将后处理折叠到归约存储中。

新博文：从 torch.compile → 自定义算子自动调优 → 一个手写 Triton 内核，在 26/28 种形状上击败 Inductor。

基于 @pz_ai1 和 Elias Ellison 在 PyTorch Conf 的演讲。

2倍 tok/s（在1块MI50上从19.4 tok/s提升到38.1 tok/s）尝试类似推测解码的假设……但不是用额外的侧模型，而是利用我可以同时运行多个计算，就好像内存里加载了两份Qwen3.6-27B一样——小量化不占用所有可用算力。

Reddit r/LocalLLaMA

打包双推理（PTI）是一种通过单批解码中运行多个token序列来实现约2倍LLM吞吐量的技术，它利用了llama.cpp中的权重共享，无需草稿模型或额外VRAM。

@shreyansh_26: 当 M 和 N 很小而 K 很大时，如何让矩阵乘法变快？（MoE routers、small-batch decode。）Decompose-K: …

相似文章

@shreyansh_26: https://x.com/shreyansh_26/status/2069125463860302212

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

优化模型以快速进行代码生成（8分钟阅读）

@jun_song: 如果我们能弄清楚如何将 MoE 模型中仅激活的参数加载到 GPU 中，而不是加载全部权重，那将是颠覆性的……

2倍 tok/s（在1块MI50上从19.4 tok/s提升到38.1 tok/s）尝试类似推测解码的假设……但不是用额外的侧模型，而是利用我可以同时运行多个计算，就好像内存里加载了两份Qwen3.6-27B一样——小量化不占用所有可用算力。

提交意见反馈