@shreyansh_26: 当 M 和 N 很小而 K 很大时,如何让矩阵乘法变快?(MoE routers、small-batch decode。)Decompose-K: …

X AI KOLs Timeline 工具

摘要

一种加速矩阵乘法的技术,适用于 M 和 N 较小而 K 较大的情况(如 MoE routers 和 small-batch decoding),通过分解 K 并并行运行部分 GEMM,然后将 epilogue 折叠到归约存储中。该方法使用自定义 Triton 内核,在大多数形状上击败了 PyTorch Inductor。

当 M 和 N 很小而 K 很大时,如何让矩阵乘法变快?(MoE routers、small-batch decode。) Decompose-K:将 K 分解,并行运行 S 个部分 GEMM,求和,并将 epilogue 折叠到归约存储中。 新博文:从 torch.compile → 自定义算子自动调优 → 一个手写的 Triton 内核,在 26/28 种形状上击败了 Inductor。 基于 PyTorch Conf 上 @pz_ai1 和 Elias Ellison 的演讲。
查看原文
查看缓存全文

缓存时间: 2026/06/23 16:12

当 M 和 N 极小、K 极大时,如何让矩阵乘法(matmul)变快?(MoE 路由器、小批量解码。)

分解 K:将 K 拆分,并行运行 S 个部分 GEMM,求和,并将后处理折叠到归约存储中。

新博文:从 torch.compile → 自定义算子自动调优 → 一个手写 Triton 内核,在 26/28 种形状上击败 Inductor。

基于 @pz_ai1 和 Elias Ellison 在 PyTorch Conf 的演讲。

相似文章

@shreyansh_26: https://x.com/shreyansh_26/status/2069125463860302212

X AI KOLs Timeline

本文介绍了Decompose-K技术,用于加速瘦高大K矩阵乘法,通过将K维度分割成块,执行批量矩阵乘法,并求和部分结果。还提供了PyTorch实现和基准测试,显示对于形状不佳的矩阵乘法,相比标准torch.compile有显著加速。

优化模型以快速进行代码生成(8分钟阅读)

TLDR AI

Morph LLC描述了三种关键技术——基于编码输出训练投机模型、在廉价GPU上自动搜索内核、以及编写自定义互连——以大幅加速像Qwen和DeepSeek这样的开放模型在编码代理工作负载上的运行,实现了最高3倍的投机解码加速,并在7000美元的GPU上达到97-162 tok/s。