triton

标签

Cards List
#triton

PyTorch 性能分析(第 2 部分):从 nn.Linear 到融合 MLP

Hugging Face Blog · 3天前 缓存

本篇博文继续 PyTorch 性能分析系列内容,探讨 nn.Linear、MLP 块以及使用 Triton 内核的融合技术,以优化性能。

0 人收藏 0 人点赞
#triton

@TheAhmadOsman: 如何学习这一切?第一步:从服务引擎视角开始 - vLLM:PagedAttention、连续批处理...

X AI KOLs Following · 5天前 缓存

一份关于学习AI推理引擎内部机制的详细指南,涵盖vLLM和SGLang等服务引擎、使用Triton和CUTLASS的低层GPU内核编程,以及一系列旨在培养实践能力的小型项目。

0 人收藏 0 人点赞
#triton

@PyTorch: 关于教程的更多详情 https://pldi26.sigplan.org/details/pldi-2026-tutorials/1/Writing-Performance-Portable-K…

X AI KOLs Following · 2026-06-04 缓存

Helion 是一个 Python 领域特定语言(DSL),可编译为优化的 Triton 代码,用于实现性能可移植的 GPU 内核。本教程将在 PLDI 2026 上介绍 Helion 的架构、自动调优以及 CuteDSL 后端。

0 人收藏 0 人点赞
#triton

@PyTorch: PyTorch 成员 Meta 刚刚开源了一个 GPU 内核,使注意力在 NVIDIA Blackwell 上加速 2.3 倍。TLX Block Atte…

X AI KOLs Following · 2026-05-26 缓存

Meta 开源了 TLX Block Attention,这是一个 warp 特化的 Triton 内核,在 NVIDIA Blackwell GPU 上为块对角自注意力实现了 2.3 倍的加速,与旋转嵌入融合时加速可达 3.5 倍。

0 人收藏 0 人点赞
#triton

Schanuel猜想与Triton的FPSan语义

Hacker News Top · 2026-05-16 缓存

FPSan是一个Triton编译器pass,通过用整数运算替换浮点运算来实现浮点程序代数等价性的验证,其正确性依赖于Schanuel猜想。

0 人收藏 0 人点赞
#triton

KernelBench-X:评估LLM生成GPU内核的综合基准测试

Hugging Face Daily Papers · 2026-05-06 缓存

KernelBench-X是一个用于评估LLM生成GPU内核的新基准,揭示了任务结构对正确性的影响大于方法设计,且正确性并不保证硬件效率。

0 人收藏 0 人点赞
#triton

AdaExplore:基于失败驱动的自适应与多样性保留搜索的高效内核生成

arXiv cs.CL · 2026-04-21 缓存

来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore,这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术,在不进行额外微调的情况下,在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈