@RisingSayak: 发布首个内核以最终优化来自@Lightricks的LTX-2.3!torch.compile + cuDNN attn 已经…

X AI KOLs Following 工具

摘要

发布了一个自定义内核,进一步优化来自Lightricks的LTX-2.3,在GB10上实现了1.52倍加速,基于之前的torch.compile和cuDNN注意力优化。

发布首个内核以最终优化来自@Lightricks的LTX-2.3! torch.compile + cuDNN attn 已经提供了1.42倍的提升。加上自定义内核后,我在GB10上获得了1.52倍提升 🔥 这是我对简单代理内核开发工作流程的系统探索。 更多内容 👇 https://t.co/u4iDpzSir0
查看原文
查看缓存全文

缓存时间: 2026/06/13 14:27

发布了我的第一个内核,以完成优化 LTX-2.3(来自 @Lightricks)的最后冲刺!

torch.compile + cuDNN attn 已经带来了 1.42 倍的提升。加上自定义内核后,我在 GB10 上获得了 1.52 倍的提升 🔥

这是我系统探索简单代理内核开发工作流程的成果。

更多内容 👇 https://t.co/u4iDpzSir0

相似文章

@ying11231:在TPU上令人印象深刻的性能。

X AI KOLs Timeline

LMSYS Org 的一篇博客文章详细介绍了使用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(一个 1 万亿参数的混合 MoE 模型),通过单个 Pallas 内核将 MoE 数据移动隐藏在计算之后,从而实现高效的推理。

OpenBSD的PPP协议栈中存在一个存在27年的认证绕过漏洞

Lobsters Hottest

OpenBSD的PPP协议栈中存在一个存在27年的认证绕过漏洞,攻击者通过发送长度为零的用户名字段和密码字段,利用PAP处理器中缺失的边界检查,无需凭证即可获得完整的PPPoE访问权限。同样的代码还允许内核堆内存越界读取。