首页
/
工具
/
@pauliusztin_: 我刚找到了理解 GPU 最实用的资源之一。再也不用在不同文档、PDF 和论坛帖子之间跳来跳去了…
@pauliusztin_: 我刚找到了理解 GPU 最实用的资源之一。再也不用在不同文档、PDF 和论坛帖子之间跳来跳去了…
摘要
Modal Labs 发布了一个开源的 GPU 术语词典,将零散的 NVIDIA 文档、CUDA 细节及编译器参数整合为单一的可导航资源,旨在帮助工程师优化 LLM 的训练与推理。
我刚找到了一个理解 GPU 极其有用的资源。再也不用在不同文档、PDF 和论坛帖子之间来回跳转了… → https://modal.com/gpu-glossary/readme…
大多数使用 GPU 的工程师都会遇到同样的问题:
• 概念分散在不同的资料中
• 底层细节无法与高层抽象建立联系
• 最终只是死记硬背术语,却并未真正理解
常见问题如:
• 什么是 Streaming Multiprocessor?
• Compute Capability 如何影响你的代码?
• nvcc flags 在底层究竟做了什么?
因此,@modal 的团队构建了一个 GPU Glossary,将所有内容串联在一个地方。它具备以下特点:
1. 覆盖完整技术栈
2. 专为工程师打造
3. 全面交叉链接
使用流程很简单:
1. 挑选一个你还没完全掌握的概念
2. 沿着跨层级的链接往下探索
3. 建立直观理解,而非死记硬背
如果你正在处理大规模的 LLM、训练或推理任务,这种深度的理解至关重要。因为 GPU 的性能瓶颈往往不会在表面直接显露。
代码仓库:https://modal.com/gpu-glossary/readme…
查看缓存全文
缓存时间:
2026/05/09 03:41
我刚刚发现了一个了解 GPU 最有用的资源之一。再也不用在不同文档、PDF 和论坛帖子之间来回跳转了... → https://modal.com/gpu-glossary/readme...
大多数从事 GPU 开发的工程师都会遇到同样的问题:
• 概念分散在不同的资料中
• 底层细节与高层抽象无法建立联系
• 最终只能死记硬背术语,却无法真正理解
比如以下这些:
• 什么是 Streaming Multiprocessor?
• Compute Capability 如何影响你的代码?
• nvcc 参数在底层究竟是如何工作的?
因此,@modal 团队构建了一份 GPU Glossary,将所有内容整合在一处。并且它具备以下特点:
1. 涵盖完整技术栈
2. 专为工程师打造
3. 全站链接互通
学习路径非常简单:
1. 挑选一个你尚未完全掌握的概念
2. 顺着链接跨越整个技术栈深入探索
3. 培养直观理解,而非机械记忆术语
如果你正在处理大规模的 LLMs、模型训练或推理任务,这种深度理解至关重要。因为 GPU 的性能瓶颈通常不会直接浮现在表面。
源码仓库地址:https://modal.com/gpu-glossary/readme...
---
# README | GPU Glossary
Source: https://modal.com/gpu-glossary/readme
``
██████╗ ██████╗ ██╗ ██╗
██╔════╝ ██╔══██╗██║ ██║
██║ ███╗██████╔╝██║ ██║
██║ ██║██╔═══╝ ██║ ██║
╚██████╔╝██║ ╚██████╔╝
╚═════╝ ╚═╝ ╚═════╝
██████╗ ██╗ ██████╗ ███████╗███████╗ █████╗ ██████╗ ██╗ ██╗
██╔════╝ ██║ ██╔═══██╗██╔════╝██╔════╝██╔══██╗██╔══██╗╚██╗ ██╔╝
██║ ███╗██║ ██║ ██║███████╗███████╗███████║██████╔╝ ╚████╔╝
██║ ██║██║ ██║ ██║╚════██║╚════██║██╔══██║██╔══██╗ ╚██╔╝
╚██████╔╝███████╗╚██████╔╝███████║███████║██║ ██║██║ ██║ ██║
╚═════╝ ╚══════╝ ╚═════╝ ╚══════╝╚══════╝╚═╝ ╚═╝╚═╝ ╚═╝ ╚═╝
``
我们编写这份 GPU Glossary,旨在解决我们在 Modal (https://modal.com/) 开发 GPU 应用时遇到的痛点:相关文档过于分散,导致很难将不同技术栈层面的概念串联起来,例如 Streaming Multiprocessor Architecture (https://modal.com/gpu-glossary/device-hardware/streaming-multiprocessor-architecture)、Compute Capability (https://modal.com/gpu-glossary/device-software/compute-capability) 以及 nvcc 编译器参数 (https://modal.com/gpu-glossary/host-software)。
为此,我们查阅了 NVIDIA 的官方 PDF (https://docs.nvidia.com/cuda/pdf/PTX_Writers_Guide_To_Interoperability.pdf),潜水浏览了众多优质的 Discord 社区 (https://discord.gg/gpumode),甚至入手了纸质教科书 (https://www.amazon.com/Professional-CUDA-Programming-John-Cheng/dp/1118739329),最终汇编成这份涵盖整个技术栈的 Glossary。
与传统的 PDF、Discord 聊天记录或书籍不同,这是一份 *hypertext document* —— 所有页面均相互链接。你可以随时向下跳转到 Warp Scheduler (https://modal.com/gpu-glossary/device-hardware/warp-scheduler) 页面深入了解,从而更好地弄明白你在阅读 CUDA programming model (https://modal.com/gpu-glossary/host-software/cuda-c) 文章时遇到的 threads (https://modal.com/gpu-glossary/device-software/thread) 相关概念。
你也可以按顺序线性阅读。如需在页面间导航,可使用键盘方向键、每页底部的翻页箭头,或者目录(桌面端位于侧边栏,移动端位于汉堡菜单)。
该 Glossary 的源代码已托管于 GitHub (https://github.com/modal-labs/gpu-glossary)。
相似文章
X AI KOLs Timeline
NVIDIA和Unsloth发布了一篇技术指南,详细介绍了三种底层优化方法,可将LLM微调速度提升高达25%,包括打包序列缓存、双缓冲检查点存储和优化的MoE路由。该指南提供了深入的系统级解释和基准测试,面向机器学习工程师和开发者。
X AI KOLs Timeline
A tweet advocating that every AI researcher should understand inference acceleration and highlighting CUDA Graph as a core component of the vLLM server for GPU efficiency.
X AI KOLs Timeline
Nvidia 低调开放约 80 款免费托管 AI 模型 API,包括 MiniMax M2.7、GLM 5.1、Kimi 2.5、DeepSeek 3.2、GPT-OSS-120B 等,可直接接入 OpenClaude、Zed IDE 等主流开发工具。
OpenAI Blog
本文探讨了神经 GPU 模型的扩展与局限性,通过课程设计和规模扩展展示了改进方案,使其能够学习十进制数和长表达式的算术运算,同时识别出对称输入上的失败模式,这些模式类似于对抗样本。
OpenAI Blog
# 介绍 Triton:神经网络开源 GPU 编程 来源:[https://openai.com/index/triton/](https://openai.com/index/triton/)  我们发布了 Triton 1.0,这是一种开源的类 Python 编程语言,使没有 CUDA 经验的研究人员能够编写高效的 GPU 代码——在大多数情况下与专家能够生成的代码性能相当。