@RisingSayak: 发布首个内核以最终优化来自@Lightricks的LTX-2.3!torch.compile + cuDNN attn 已经…
摘要
发布了一个自定义内核,进一步优化来自Lightricks的LTX-2.3,在GB10上实现了1.52倍加速,基于之前的torch.compile和cuDNN注意力优化。
发布首个内核以最终优化来自@Lightricks的LTX-2.3!
torch.compile + cuDNN attn 已经提供了1.42倍的提升。加上自定义内核后,我在GB10上获得了1.52倍提升 🔥
这是我对简单代理内核开发工作流程的系统探索。
更多内容 👇 https://t.co/u4iDpzSir0
查看缓存全文
缓存时间: 2026/06/13 14:27
发布了我的第一个内核,以完成优化 LTX-2.3(来自 @Lightricks)的最后冲刺!
torch.compile + cuDNN attn 已经带来了 1.42 倍的提升。加上自定义内核后,我在 GB10 上获得了 1.52 倍的提升 🔥
这是我系统探索简单代理内核开发工作流程的成果。
更多内容 👇 https://t.co/u4iDpzSir0
相似文章
我将现有为 Copilot 和 Claude Code 节省 Token 的工具整合到了一个安装程序中
一位开发者创建了一个统一的安装程序,将现有的如 OpenSpec、RTK 和 ccusage 等为 Copilot 和 Claude Code 节省 Token 的工具整合在一起,并带有命令行界面,可显示实际的 Token 消耗节省量。
RACL:用于连续元启发式学习的推理智能体控制层
介绍了RACL,一种推理智能体控制层,通过学习从操作内存控制内部搜索行为来改进元启发式优化,在车辆路径测试中显示出成本改善。
ORAgentBench:LLM代理能否端到端解决具有挑战性的运筹学任务?
本文介绍ORAgentBench,一个用于评估LLM代理在端到端运筹学任务中表现的执行基准,包含107个经过人工审查的任务。实验表明,当前最佳代理仅通过35.51%的任务,揭示了在可靠决策制定方面的重大不足。
知识工作者问答论坛中的最优调度
本文建模了一个由专家知识工作者组成的问答论坛,研究最优调度以最大化系统容量与稳定性。
通过进化程序性瓶颈解读神经组合优化
介绍进化程序性瓶颈(EPB),一种通过LLM驱动的进化将黑箱模型蒸馏为人类可读的程序组合以解读神经组合优化策略的框架。