标签
本文推导了面向右侧的稀疏 Cholesky 算法的列消元树,解释了它如何在不进行稠密分解的情况下预测填充元素和任务依赖关系。
本文介绍了康奈尔大学虚拟工作坊提供的免费在线教程,内容涵盖使用 C 语言进行基础 CUDA 编程,并包括先决条件和附加资源。
这是 BYU FLOW Lab 于 2019 年发布的一篇博客文章,以真实的空气动力学应用(涡粒子法)作为基准测试,探讨如何优化 Julia 代码以匹配 C++ 的性能。作者分享了在 Julia 中实现高性能计算的经验,涵盖类型声明、JIT 编译以及代码优化技巧。
# deepseek-ai/DeepGEMM 来源:[https://github.com/deepseek-ai/DeepGEMM](https://github.com/deepseek-ai/DeepGEMM) # DeepGEMM DeepGEMM 是一个统一的高性能张量核心内核库,整合了现代大语言模型的关键计算原语——GEMM(FP8、FP4、BF16)、带通信重叠的融合 MoE(Mega MoE)、闪电索引器的 MQA 评分、超连接(HC)等——形成一个统一的 CUDA 代码库。所有内核均在运行时编译