triton

#triton

@PyTorch: FBTriton 是 Meta 开发其实验性 GPU 优化解决方案（包括 TLX/torchTLX 和…）的 Triton 仓库

X AI KOLs Timeline ↗ · 6小时前缓存

Meta 的 FBTriton 是 OpenAI Triton 编译器的一个下游分支，能够在上游保持同步的同时，快速开发 TLX 和 autoWS 等 GPU 优化。本文详细介绍了其持续的上游合并策略、分层 L1/L2/L3 验证框架，以及在平衡创新与生产稳定性方面的实际挑战。

0 人收藏 0 人点赞

#triton

MKEvolve：一个用于内核代码生成的模块化多智能体框架

arXiv cs.AI ↗ · 6天前缓存

介绍了MKEvolve，一个模块化多智能体框架，用于迭代地共同演化模块分解和硬件加速器的LLM生成内核，相比直接合成实现了更高的正确性和加速，同时减少了令牌使用量。

0 人收藏 0 人点赞

#triton

SonicSampler：用于LLM采样和推测性验证的统一Tile感知内核

arXiv cs.AI ↗ · 6天前缓存

SonicSampler 提出了一套统一的Tile感知Triton内核，垂直融合了整个LLM采样流水线，支持动态的逐请求行为和推测性验证，相较于最先进的基线实现了高达16倍的加速。

0 人收藏 0 人点赞

#triton

Deepseek V4 Flash 在两块 Nvidia 4090d 48G (ada) 上以 vLLM 运行，速度约 105 t/s

Reddit r/LocalLLaMA ↗ · 2026-07-23

技术文章：详细介绍如何使用自定义Triton内核和vLLM在两块Nvidia 4090d GPU上运行DeepSeek V4 Flash，在262k上下文环境下实现约105 tokens/秒的推理速度。

0 人收藏 0 人点赞

#triton

@PyTorch：PyTorch-Triton 3.7 发布版引入了 Triton Plugin Extensions 系统，这是一个用于动态加载自定义…的框架

X AI KOLs Following ↗ · 2026-07-15 缓存

PyTorch-Triton 3.7 发布版引入了 Triton Plugin Extensions 系统，支持动态加载自定义编译器传递和 DSL 扩展至上游 Triton，无需分叉，并且现可开箱即用支持 Meta 的 TLX。

0 人收藏 0 人点赞

#triton

@elliotarledge：对于那些好奇我为什么使用 Kimi Linear 巨型内核而不是 Qwen 3.6 的人，首先看看参数数量。一个是……

X AI KOLs Timeline ↗ · 2026-07-03 缓存

Elliot Arledge 解释了他为什么更喜欢使用 Kimi Linear 巨型内核而不是 Qwen 3.6 来提升内核性能，比较了参数数量、层同步、隐藏维度和架构特定的优化。讨论强调 Kimi Linear 架构更适合巨型内核实现，特别是在 RTX PRO 6000 Blackwell 上进行 batch-1 解码时。

0 人收藏 0 人点赞

#triton

@h100envy: 构建了NVIDIA TensorRT-LLM内核的CMU博士用68分钟讲解快速注意力——比1200美元的GPU课程更胜一筹

X AI KOLs Timeline ↗ · 2026-07-02 缓存

一位开发了NVIDIA现用于TensorRT-LLM的内核的CMU博士讲解了快速注意力，内容涵盖融合CUDA内核、FlashInfer、Triton和分页KV注意力，使同一GPU每秒能处理更多token。

0 人收藏 0 人点赞

#triton

@shreyansh_26: https://x.com/shreyansh_26/status/2069125463860302212

X AI KOLs Timeline ↗ · 2026-06-22 缓存

本文介绍了Decompose-K技术，用于加速瘦高大K矩阵乘法，通过将K维度分割成块，执行批量矩阵乘法，并求和部分结果。还提供了PyTorch实现和基准测试，显示对于形状不佳的矩阵乘法，相比标准torch.compile有显著加速。

0 人收藏 0 人点赞

#triton

PyTorch 性能分析（第 2 部分）：从 nn.Linear 到融合 MLP

Hugging Face Blog ↗ · 2026-06-11 缓存

本篇博文继续 PyTorch 性能分析系列内容，探讨 nn.Linear、MLP 块以及使用 Triton 内核的融合技术，以优化性能。

0 人收藏 0 人点赞

#triton

@TheAhmadOsman: 如何学习这一切？第一步：从服务引擎视角开始 - vLLM：PagedAttention、连续批处理...

X AI KOLs Following ↗ · 2026-06-08 缓存

一份关于学习AI推理引擎内部机制的详细指南，涵盖vLLM和SGLang等服务引擎、使用Triton和CUTLASS的低层GPU内核编程，以及一系列旨在培养实践能力的小型项目。

0 人收藏 0 人点赞

#triton

@PyTorch: 关于教程的更多详情 https://pldi26.sigplan.org/details/pldi-2026-tutorials/1/Writing-Performance-Portable-K…

X AI KOLs Following ↗ · 2026-06-04 缓存

Helion 是一个 Python 领域特定语言（DSL），可编译为优化的 Triton 代码，用于实现性能可移植的 GPU 内核。本教程将在 PLDI 2026 上介绍 Helion 的架构、自动调优以及 CuteDSL 后端。

0 人收藏 0 人点赞

#triton

@PyTorch: PyTorch 成员 Meta 刚刚开源了一个 GPU 内核，使注意力在 NVIDIA Blackwell 上加速 2.3 倍。TLX Block Atte…

X AI KOLs Following ↗ · 2026-05-26 缓存

Meta 开源了 TLX Block Attention，这是一个 warp 特化的 Triton 内核，在 NVIDIA Blackwell GPU 上为块对角自注意力实现了 2.3 倍的加速，与旋转嵌入融合时加速可达 3.5 倍。

0 人收藏 0 人点赞

#triton

Schanuel猜想与Triton的FPSan语义

Hacker News Top ↗ · 2026-05-16 缓存

FPSan是一个Triton编译器pass，通过用整数运算替换浮点运算来实现浮点程序代数等价性的验证，其正确性依赖于Schanuel猜想。

0 人收藏 0 人点赞

#triton

KernelBench-X：评估LLM生成GPU内核的综合基准测试

Hugging Face Daily Papers ↗ · 2026-05-06 缓存

KernelBench-X是一个用于评估LLM生成GPU内核的新基准，揭示了任务结构对正确性的影响大于方法设计，且正确性并不保证硬件效率。

0 人收藏 0 人点赞

#triton

AdaExplore：基于失败驱动的自适应与多样性保留搜索的高效内核生成

arXiv cs.CL ↗ · 2026-04-21 缓存

来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore，这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术，在不进行额外微调的情况下，在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。

0 人收藏 0 人点赞

triton

提交意见反馈