@_akhaliq: GPU Forecasters 语言模型作为内核运行时优化的选择性代理

X AI KOLs Following 2026/06/02 15:53 论文

gpu language-models kernel-optimization runtime-optimization forecasting surrogates

摘要

本文提出使用语言模型作为选择性代理来优化GPU内核运行时，展示了一种新颖的性能预测方法。

GPU Forecasters 语言模型作为内核运行时优化的选择性代理 https://t.co/s2r0lFWz9r

查看原文

查看缓存全文

缓存时间: 2026/06/02 19:38

GPU预测器

语言模型作为内核运行时优化的选择性替代方案 https://t.co/s2r0lFWz9r

相似文章

@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…

X AI KOLs Timeline

一条推文讨论了两种agentic GPU内核优化系统：@dogacel0的Auto GPU Kernel和@songhan_mit实验室的Kernel Design Agents，两者均在MLSys Sparse Attention FlashInfer比赛中获胜。该帖子突出了使用子代理和Claude技能进行GPU编程的不同方法。

面向AMD GPU的更好HIP内核生成：合成数据、多智能体搜索与强化学习

Reddit r/LocalLLaMA

探讨了合成数据生成、多智能体优化和强化学习，以提高语言模型为AMD GPU生成高性能HIP内核的能力，并在MI350X上展示了编译率和正确率的提升。

优化模型以快速进行代码生成（8分钟阅读）

TLDR AI

Morph LLC描述了三种关键技术——基于编码输出训练投机模型、在廉价GPU上自动搜索内核、以及编写自定义互连——以大幅加速像Qwen和DeepSeek这样的开放模型在编码代理工作负载上的运行，实现了最高3倍的投机解码加速，并在7000美元的GPU上达到97-162 tok/s。

像人类一样优化CUDA：微剖析工具作为基于LLM的GPU内核优化的专家替代

arXiv cs.LG

KernelPro是一个闭环多智能体系统，利用LLM和微剖析工具自动优化GPU内核代码，在KernelBench上实现了2.42×/4.69×/5.30×的几何平均加速，并在相同速度下实测能耗降低11.6%。

@AnnmariaKAntony: LLMs 擅长 CUDA，因为互联网上充满了相关内容。但一个能提供高度优化 CUDA 的模型可能仍然……

X AI KOLs Timeline

一个结合 SFT 和 GRPO RL 后训练的多智能体合成数据流水线，为 14B 开源模型在 AMD MI350X GPU 上提升了 HIP 的编译和正确性。

提交意见反馈