kernel-tuning

标签

Cards List
#kernel-tuning

优化模型以快速进行代码生成(8分钟阅读)

TLDR AI · 6天前 缓存

Morph LLC描述了三种关键技术——基于编码输出训练投机模型、在廉价GPU上自动搜索内核、以及编写自定义互连——以大幅加速像Qwen和DeepSeek这样的开放模型在编码代理工作负载上的运行,实现了最高3倍的投机解码加速,并在7000美元的GPU上达到97-162 tok/s。

0 人收藏 0 人点赞
#kernel-tuning

@PyTorch: 自动调优是Helion的支柱,Helion是PyTorch用于性能可移植ML内核的DSL。目前Helion搜索利用…

X AI KOLs Following · 2026-06-18 缓存

本文探讨了使用LLM引导的自动调优来加速PyTorch的Helion DSL中的内核配置搜索,取代了较慢的Likelihood-Free Bayesian Optimization方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈