kernel-tuning

#kernel-tuning

优化模型以快速进行代码生成（8分钟阅读）

TLDR AI ↗ · 6天前缓存

Morph LLC描述了三种关键技术——基于编码输出训练投机模型、在廉价GPU上自动搜索内核、以及编写自定义互连——以大幅加速像Qwen和DeepSeek这样的开放模型在编码代理工作负载上的运行，实现了最高3倍的投机解码加速，并在7000美元的GPU上达到97-162 tok/s。

0 人收藏 0 人点赞

#kernel-tuning

X AI KOLs Following ↗ · 2026-06-18 缓存

本文探讨了使用LLM引导的自动调优来加速PyTorch的Helion DSL中的内核配置搜索，取代了较慢的Likelihood-Free Bayesian Optimization方法。

0 人收藏 0 人点赞