@vivekgalatage:我发现的最好的GPU优化结构化参考资料——450篇论文,14年研究。一些技术已经进化……
摘要
一条推文分享了一个涵盖14年、450篇论文的GPU优化结构化参考资料,指出虽然一些技术已经发展,但心智模型仍然有用。还提到了Onur Mutlu关于GPU架构的讲座。
我发现的最好的GPU优化结构化参考资料——450篇论文,14年研究。一些技术可能已经进化,但心智模型依然有效。
https://t.co/2kFfsEq31h https://t.co/0jmUz9OUsX
查看缓存全文
缓存时间: 2026/05/21 10:22
我找到的最佳GPU优化结构化参考——450篇论文,14年研究成果。某些技术可能已演进,但思维模型依然有效。
https://t.co/2kFfsEq31h https://t.co/0jmUz9OUsX
Vivek Galatage (@vivekgalatage): 昨日@onurmutlu 关于GPU架构的讲座
相似文章
@pauliusztin_: 我刚找到了理解 GPU 最实用的资源之一。再也不用在不同文档、PDF 和论坛帖子之间跳来跳去了…
Modal Labs 发布了一个开源的 GPU 术语词典,将零散的 NVIDIA 文档、CUDA 细节及编译器参数整合为单一的可导航资源,旨在帮助工程师优化 LLM 的训练与推理。
@Suryanshti777: NVIDIA刚刚揭秘了它们用来让LLM微调显著加速的隐藏技巧。不是新GPU。不是大…
NVIDIA和Unsloth发布了一篇技术指南,详细介绍了三种底层优化方法,可将LLM微调速度提升高达25%,包括打包序列缓存、双缓冲检查点存储和优化的MoE路由。该指南提供了深入的系统级解释和基准测试,面向机器学习工程师和开发者。
@levidiamode: Day 138/365 of GPU Programming 今年我最喜欢的讲座之一是斯坦福大学的CS336第7讲关于GPU…
一位学习者分享了对斯坦福大学CS336第7讲关于GPU并行性的热情,该讲座涵盖了基本操作,并将其连接到多GPU设置以及张量并行、数据并行和流水线并行等技术。
@_akhaliq: GPU Forecasters 语言模型作为内核运行时优化的选择性代理
本文提出使用语言模型作为选择性代理来优化GPU内核运行时,展示了一种新颖的性能预测方法。
@rohanpaul_ai:好的GPU性能总结——只需6分钟。
一个链接到简洁的GPU性能总结,声称只需6分钟阅读。