@HanGuo97: LLM训练建立在快速矩阵乘法（MatMuls）之上。但许多周边操作仍然作为内存受限的内核运行。CODA重新参数化……

X AI KOLs Following 2026/05/21 22:25 论文

llm-training matmul kernel-fusion memory-bound code-generation cuda reparameterization

摘要

CODA将LLM训练中的内存受限操作重新参数化，将其融合到矩阵乘法的epilogue中，从而利用LLM生成的内核实现了接近最先进的性能。

LLM训练建立在快速矩阵乘法（MatMuls）之上。但许多周边操作仍然作为内存受限的内核运行。 CODA将它们重新参数化，隐藏在矩阵乘法的阴影中，在结果离开芯片前融合到其epilogue中。额外好处：LLM也可以编写快速的CODA内核（接近SoLs）。https://t.co/cOTeMUr4py

查看原文

查看缓存全文

缓存时间: 2026/05/22 05:49

LLM训练建立在快速的MatMuls之上。但许多周围的操作仍然以内存受限的内核运行。

CODA将它们重新参数化，隐藏在矩阵乘法的阴影中，在结果离开芯片之前融合到其尾声。

附加说明：LLM也能编写快速的CODA内核（接近SoLs）。https://t.co/cOTeMUr4py

相似文章

@frank_uid: 最近在学Infra的东西，vibe了一个Qwen3的推理引擎，纯c++/cuda实现，带hf模型解析和benchmark总共不到2000行，完全无外部依赖，编译出来二进制只有1.2MB（Claude写kernel太猛了

X AI KOLs Timeline

FlashQwen is a minimal from-scratch C++/CUDA inference engine for Qwen3-8B with no external dependencies, supporting multi-turn streaming chat and benchmark mode, with a binary size of only 1.2MB.

@PierceZhang34: 10秒训练一个小模型! LLM 训练神器：http://llm.istanbul 初体验最近发现了一个超级有趣的开源风格工具网站 —— http://llm.istanbul，它号称 WebGPU LLM Workbench，意思是完全…

X AI KOLs Timeline

介绍了一个名为 llm.istanbul 的 WebGPU LLM 工作台，可在浏览器中训练小模型、训练分词器并生成文本。无需服务器，完全本地运行。

@HanGuo97: LLM训练建立在快速矩阵乘法（MatMuls）之上。但许多周边操作仍然作为内存受限的内核运行。CODA重新参数化……

相似文章

@frank_uid: 最近在学Infra的东西，vibe了一个Qwen3的推理引擎，纯c++/cuda实现，带hf模型解析和benchmark总共不到2000行，完全无外部依赖，编译出来二进制只有1.2MB（Claude写kernel太猛了

编码代理最糟糕的失败是过早地说“完成”

@atomic_chat_hq: 新Kimi K2.7 Code性能达到GPT-5.5级别，价格却便宜3倍！我们对两个模型使用了相同的三个提示：构建一个自包含的…

@geekbb: 微信官方出的 AI 开发模式辅助工具集，把小程序源码自动转成微信 AI 开发模式要求的 SKILL 格式，顺带做好校验和评测。

@PierceZhang34: 10秒训练一个小模型! LLM 训练神器：http://llm.istanbul 初体验最近发现了一个超级有趣的开源风格工具网站 —— http://llm.istanbul，它号称 WebGPU LLM Workbench，意思是完全…

提交意见反馈

相似文章

@frank_uid: 最近在学Infra的东西，vibe了一个Qwen3的推理引擎，纯c++/cuda实现，带hf模型解析和benchmark总共不到2000行，完全无外部依赖，编译出来二进制只有1.2MB（Claude写kernel太猛了

编码代理最糟糕的失败是过早地说“完成”

@atomic_chat_hq: 新Kimi K2.7 Code性能达到GPT-5.5级别，价格却便宜3倍！我们对两个模型使用了相同的三个提示：构建一个自包含的…

@geekbb: 微信官方出的 AI 开发模式辅助工具集，把小程序源码自动转成微信 AI 开发模式要求的 SKILL 格式，顺带做好校验和评测。

@PierceZhang34: 10秒训练一个小模型! LLM 训练神器：http://llm.istanbul 初体验 最近发现了一个超级有趣的开源风格工具网站 —— http://llm.istanbul，它号称 WebGPU LLM Workbench，意思是完全…

提交意见反馈

@PierceZhang34: 10秒训练一个小模型! LLM 训练神器：http://llm.istanbul 初体验最近发现了一个超级有趣的开源风格工具网站 —— http://llm.istanbul，它号称 WebGPU LLM Workbench，意思是完全…