@HanGuo97: LLM训练建立在快速矩阵乘法(MatMuls)之上。但许多周边操作仍然作为内存受限的内核运行。CODA重新参数化……

X AI KOLs Following 论文

摘要

CODA将LLM训练中的内存受限操作重新参数化,将其融合到矩阵乘法的epilogue中,从而利用LLM生成的内核实现了接近最先进的性能。

LLM训练建立在快速矩阵乘法(MatMuls)之上。但许多周边操作仍然作为内存受限的内核运行。 CODA将它们重新参数化,隐藏在矩阵乘法的阴影中,在结果离开芯片前融合到其epilogue中。 额外好处:LLM也可以编写快速的CODA内核(接近SoLs)。https://t.co/cOTeMUr4py
查看原文
查看缓存全文

缓存时间: 2026/05/22 05:49

LLM训练建立在快速的MatMuls之上。但许多周围的操作仍然以内存受限的内核运行。

CODA将它们重新参数化,隐藏在矩阵乘法的阴影中,在结果离开芯片之前融合到其尾声。

附加说明:LLM也能编写快速的CODA内核(接近SoLs)。https://t.co/cOTeMUr4py

相似文章

编码代理最糟糕的失败是过早地说“完成”

Reddit r/AI_Agents

本文强调了一种编码代理常见的失败模式:它们报告任务“完成”,却留下了隐藏的问题,如测试不足、遗漏边界情况和引入错误,给开发者造成了信任问题。