@HanGuo97: LLM训练建立在快速矩阵乘法(MatMuls)之上。但许多周边操作仍然作为内存受限的内核运行。CODA重新参数化……
摘要
CODA将LLM训练中的内存受限操作重新参数化,将其融合到矩阵乘法的epilogue中,从而利用LLM生成的内核实现了接近最先进的性能。
查看缓存全文
缓存时间: 2026/05/22 05:49
LLM训练建立在快速的MatMuls之上。但许多周围的操作仍然以内存受限的内核运行。
CODA将它们重新参数化,隐藏在矩阵乘法的阴影中,在结果离开芯片之前融合到其尾声。
附加说明:LLM也能编写快速的CODA内核(接近SoLs)。https://t.co/cOTeMUr4py
相似文章
@frank_uid: 最近在学Infra的东西,vibe了一个Qwen3的推理引擎,纯c++/cuda实现,带hf模型解析和benchmark总共不到2000行,完全无外部依赖,编译出来二进制只有1.2MB(Claude写kernel太猛了
FlashQwen is a minimal from-scratch C++/CUDA inference engine for Qwen3-8B with no external dependencies, supporting multi-turn streaming chat and benchmark mode, with a binary size of only 1.2MB.
编码代理最糟糕的失败是过早地说“完成”
本文强调了一种编码代理常见的失败模式:它们报告任务“完成”,却留下了隐藏的问题,如测试不足、遗漏边界情况和引入错误,给开发者造成了信任问题。
@atomic_chat_hq: 新Kimi K2.7 Code性能达到GPT-5.5级别,价格却便宜3倍!我们对两个模型使用了相同的三个提示:构建一个自包含的…
Kimi K2.7 Code 是一款新AI模型,据称在涉及物理模拟的代码生成任务中,性能达到GPT-5.5级别,但成本仅为其三倍更便宜。
@geekbb: 微信官方出的 AI 开发模式辅助工具集,把小程序源码自动转成微信 AI 开发模式要求的 SKILL 格式,顺带做好校验和评测。
微信官方发布AI开发模式辅助工具集,可将小程序源码自动转换为微信AI开发模式要求的SKILL格式,并提供校验与评测功能,提升开发效率。
@PierceZhang34: 10秒训练一个小模型! LLM 训练神器:http://llm.istanbul 初体验 最近发现了一个超级有趣的开源风格工具网站 —— http://llm.istanbul,它号称 WebGPU LLM Workbench,意思是完全…
介绍了一个名为 llm.istanbul 的 WebGPU LLM 工作台,可在浏览器中训练小模型、训练分词器并生成文本。无需服务器,完全本地运行。