标签
提升了k-quants的预填充速度,并重构了llama.cpp WebGPU后端中Q4/Q5/Q8及k-quants的矩阵乘法。
CODA将LLM训练中的内存受限操作重新参数化,将其融合到矩阵乘法的epilogue中,从而利用LLM生成的内核实现了接近最先进的性能。