标签
本文介绍了HPC-LLM,一个面向HPC工作流的检索增强与领域自适应助手,基于HPC文档使用QLoRA微调Llama 3.1 8B模型。实验表明,该模型在资源需求显著降低的情况下,性能与更大的通用模型相当。
Jane Street允许Dwarkesh Patel参观其位于德克萨斯州的新数据中心,该中心拥有4,032个GPU,每个机架功耗达140千瓦,突显了其巨大规模与独特的网络选择。
一名用户展示了一个由 M5 Max MacBook 组成的 DIY 集群,这些设备通过雷雳 5 连接,凸显了其聚合计算能力以及面临的连接挑战。
本文推导了面向右侧的稀疏 Cholesky 算法的列消元树,解释了它如何在不进行稠密分解的情况下预测填充元素和任务依赖关系。
本文介绍了康奈尔大学虚拟工作坊提供的免费在线教程,内容涵盖使用 C 语言进行基础 CUDA 编程,并包括先决条件和附加资源。
这是 BYU FLOW Lab 于 2019 年发布的一篇博客文章,以真实的空气动力学应用(涡粒子法)作为基准测试,探讨如何优化 Julia 代码以匹配 C++ 的性能。作者分享了在 Julia 中实现高性能计算的经验,涵盖类型声明、JIT 编译以及代码优化技巧。
# deepseek-ai/DeepGEMM 来源:[https://github.com/deepseek-ai/DeepGEMM](https://github.com/deepseek-ai/DeepGEMM) # DeepGEMM DeepGEMM 是一个统一的高性能张量核心内核库,整合了现代大语言模型的关键计算原语——GEMM(FP8、FP4、BF16)、带通信重叠的融合 MoE(Mega MoE)、闪电索引器的 MQA 评分、超连接(HC)等——形成一个统一的 CUDA 代码库。所有内核均在运行时编译