标签
Venkat 解释道,热路径中未经优化的CPU工作会严重影响推理性能,并介绍了他在 mooncake 中提交的PR,该PR添加了一个内存池,用于实现无锁、无分配的操作,使 vLLM 和 SGL 项目受益。
一篇深入的技术博客文章,解释如何使用现代x86_64 CPU上的SIMD指令高效地转置矩阵,重点介绍类似_mm256_shuffle_epi8的AVX2内联函数。
该 PR 为 ggml-cpu 加入针对 x86 及通用 CPU 优化的 q1_0 点积内核,提升量化 LLM 推理速度。
研究采用稀疏条带技术在CPU上优化2D图形渲染,以提升性能并降低内存开销。