@RisingSayak: 发布首个内核以最终优化来自@Lightricks的LTX-2.3!torch.compile + cuDNN attn 已经…

X AI KOLs Following 工具

摘要

发布了一个自定义内核,进一步优化来自Lightricks的LTX-2.3,在GB10上实现了1.52倍加速,基于之前的torch.compile和cuDNN注意力优化。

发布首个内核以最终优化来自@Lightricks的LTX-2.3! torch.compile + cuDNN attn 已经提供了1.42倍的提升。加上自定义内核后,我在GB10上获得了1.52倍提升 🔥 这是我对简单代理内核开发工作流程的系统探索。 更多内容 👇 https://t.co/u4iDpzSir0
查看原文
查看缓存全文

缓存时间: 2026/06/13 14:27

发布了我的第一个内核,以完成优化 LTX-2.3(来自 @Lightricks)的最后冲刺!

torch.compile + cuDNN attn 已经带来了 1.42 倍的提升。加上自定义内核后,我在 GB10 上获得了 1.52 倍的提升 🔥

这是我系统探索简单代理内核开发工作流程的成果。

更多内容 👇 https://t.co/u4iDpzSir0

相似文章