标签
Morph LLC描述了三种关键技术——基于编码输出训练投机模型、在廉价GPU上自动搜索内核、以及编写自定义互连——以大幅加速像Qwen和DeepSeek这样的开放模型在编码代理工作负载上的运行,实现了最高3倍的投机解码加速,并在7000美元的GPU上达到97-162 tok/s。
本文探讨了使用LLM引导的自动调优来加速PyTorch的Helion DSL中的内核配置搜索,取代了较慢的Likelihood-Free Bayesian Optimization方法。