标签
本文认为,在使用Ozaki Scheme II的情况下,FP8张量核心可以替代原生FP64硬件,用于像NVIDIA B300这样的AI优化GPU上的高性能科学计算,以更高的吞吐量实现完全的双精度精度。作者提出了张量-内存均衡模型,并表明在所有工作负载中,模拟的FP64性能可以比原生FP64高出数个数量级。
一条推文分享了一个涵盖14年、450篇论文的GPU优化结构化参考资料,指出虽然一些技术已经发展,但心智模型仍然有用。还提到了Onur Mutlu关于GPU架构的讲座。
Q.ANT 在奥斯汀设立了美国办事处,并任命 Bruno Spruth 为 CTO,突显其光子 GPU 在莱布尼茨超级计算中心已进入生产阶段,据称在性能和能效方面较传统晶体管芯片有显著提升。
Modal Labs 发布了一个开源的 GPU 术语词典,将零散的 NVIDIA 文档、CUDA 细节及编译器参数整合为单一的可导航资源,旨在帮助工程师优化 LLM 的训练与推理。
该讲座介绍了GPU架构作为SIMD(向量/数组)处理器的灵活演化,讨论了数据并行性、存储体分组、体冲突、串行瓶颈以及SIMD指令历史(如MMX),强调GPU如何利用数据并行性并应对串行瓶颈。