decompose-k

#decompose-k

@shreyansh_26: 当 M 和 N 很小而 K 很大时，如何让矩阵乘法变快？（MoE routers、small-batch decode。）Decompose-K: …

X AI KOLs Timeline ↗ · 2天前缓存

一种加速矩阵乘法的技术，适用于 M 和 N 较小而 K 较大的情况（如 MoE routers 和 small-batch decoding），通过分解 K 并并行运行部分 GEMM，然后将 epilogue 折叠到归约存储中。该方法使用自定义 Triton 内核，在大多数形状上击败了 PyTorch Inductor。

0 人收藏 0 人点赞

#decompose-k

@shreyansh_26: https://x.com/shreyansh_26/status/2069125463860302212

X AI KOLs Timeline ↗ · 2天前缓存

本文介绍了Decompose-K技术，用于加速瘦高大K矩阵乘法，通过将K维度分割成块，执行批量矩阵乘法，并求和部分结果。还提供了PyTorch实现和基准测试，显示对于形状不佳的矩阵乘法，相比标准torch.compile有显著加速。

0 人收藏 0 人点赞

decompose-k

@shreyansh_26: 当 M 和 N 很小而 K 很大时，如何让矩阵乘法变快？（MoE routers、small-batch decode。）Decompose-K: …

@shreyansh_26: https://x.com/shreyansh_26/status/2069125463860302212

提交意见反馈