@RisingSayak: 发布首个内核以最终优化来自@Lightricks的LTX-2.3!torch.compile + cuDNN attn 已经…
摘要
发布了一个自定义内核,进一步优化来自Lightricks的LTX-2.3,在GB10上实现了1.52倍加速,基于之前的torch.compile和cuDNN注意力优化。
查看缓存全文
缓存时间: 2026/06/13 14:27
发布了我的第一个内核,以完成优化 LTX-2.3(来自 @Lightricks)的最后冲刺!
torch.compile + cuDNN attn 已经带来了 1.42 倍的提升。加上自定义内核后,我在 GB10 上获得了 1.52 倍的提升 🔥
这是我系统探索简单代理内核开发工作流程的成果。
更多内容 👇 https://t.co/u4iDpzSir0
相似文章
在地质、需求与定价不确定性下优化锂生产决策:面向多目标决策的POMDP框架
本文提出了一种面向锂生产多目标决策的POMDP框架,处理地质、需求与定价不确定性,以优化矿山开采及提取方法选择。该方法通过信念状态规划动态适应价格机制变化,优于基于人类启发式的方法。
@ying11231:在TPU上令人印象深刻的性能。
LMSYS Org 的一篇博客文章详细介绍了使用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(一个 1 万亿参数的混合 MoE 模型),通过单个 Pallas 内核将 MoE 数据移动隐藏在计算之后,从而实现高效的推理。
@jerryjliu0: 我们让Claude在理解PDF方面变得更好更快。秘诀不仅仅是打造最快的免费文档解析器…
LlamaIndex改进了其用于Claude代理的LiteParse PDF解析技能,通过评估轨迹优化代理行为,使其成本降低37%,准确性更高。
@jino_rohit: 理解 torch.compile 堆栈 torch.compile 是一种加速 PyTorch 代码的技术。torch.compile 通过…
本文解释了 PyTorch 中的 torch.compile 堆栈,详述了从 API 到 Dynamo、FX 图、ATen 操作以及用于 JIT 编译的 Torch Inductor 的各个步骤。
OpenBSD的PPP协议栈中存在一个存在27年的认证绕过漏洞
OpenBSD的PPP协议栈中存在一个存在27年的认证绕过漏洞,攻击者通过发送长度为零的用户名字段和密码字段,利用PAP处理器中缺失的边界检查,无需凭证即可获得完整的PPPoE访问权限。同样的代码还允许内核堆内存越界读取。