@vivekgalatage：我发现的最好的GPU优化结构化参考资料——450篇论文，14年研究。一些技术已经进化……

X AI KOLs Timeline 2026/05/20 22:00 新闻

gpu-optimization research-papers structured-reference gpu-architecture

摘要

一条推文分享了一个涵盖14年、450篇论文的GPU优化结构化参考资料，指出虽然一些技术已经发展，但心智模型仍然有用。还提到了Onur Mutlu关于GPU架构的讲座。

我发现的最好的GPU优化结构化参考资料——450篇论文，14年研究。一些技术可能已经进化，但心智模型依然有效。 https://t.co/2kFfsEq31h https://t.co/0jmUz9OUsX

查看原文

查看缓存全文

缓存时间: 2026/05/21 10:22

我找到的最佳GPU优化结构化参考——450篇论文，14年研究成果。某些技术可能已演进，但思维模型依然有效。

https://t.co/2kFfsEq31h https://t.co/0jmUz9OUsX

Vivek Galatage (@vivekgalatage): 昨日@onurmutlu 关于GPU架构的讲座

相似文章

X AI KOLs Following

Modal Labs 发布了一个开源的 GPU 术语词典，将零散的 NVIDIA 文档、CUDA 细节及编译器参数整合为单一的可导航资源，旨在帮助工程师优化 LLM 的训练与推理。

X AI KOLs Timeline

NVIDIA和Unsloth发布了一篇技术指南，详细介绍了三种底层优化方法，可将LLM微调速度提升高达25%，包括打包序列缓存、双缓冲检查点存储和优化的MoE路由。该指南提供了深入的系统级解释和基准测试，面向机器学习工程师和开发者。

X AI KOLs Timeline

一位学习者分享了对斯坦福大学CS336第7讲关于GPU并行性的热情，该讲座涵盖了基本操作，并将其连接到多GPU设置以及张量并行、数据并行和流水线并行等技术。

X AI KOLs Following

本文提出使用语言模型作为选择性代理来优化GPU内核运行时，展示了一种新颖的性能预测方法。

X AI KOLs Following

一个链接到简洁的GPU性能总结，声称只需6分钟阅读。