@_akhaliq: GPU Forecasters 语言模型作为内核运行时优化的选择性代理

X AI KOLs Following 论文

摘要

本文提出使用语言模型作为选择性代理来优化GPU内核运行时,展示了一种新颖的性能预测方法。

GPU Forecasters 语言模型作为内核运行时优化的选择性代理 https://t.co/s2r0lFWz9r
查看原文
查看缓存全文

缓存时间: 2026/06/02 19:38

GPU预测器

语言模型作为内核运行时优化的选择性替代方案 https://t.co/s2r0lFWz9r

相似文章

一个可定制的编译器,用于为AI模型生成高效的融合GPU内核 [P]

Reddit r/MachineLearning

作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核,在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。

AdaExplore:基于失败驱动的自适应与多样性保留搜索的高效内核生成

arXiv cs.CL

来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore,这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术,在不进行额外微调的情况下,在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。

迈向多模型LLM调度器:关于卸载和抢占的实证洞见

arXiv cs.AI

本文对在共享异构硬件上调度多个LLM进行了实证研究,重点关注CPU-GPU卸载和抢占的性能影响。研究发现,卸载会导致非线性的解码吞吐量下降,尤其是对于较小的模型,而抢占开销主要由模型状态重载主导,为未来多模型调度器的设计提供了指导。

神经 GPU 的扩展与局限性

OpenAI Blog

本文探讨了神经 GPU 模型的扩展与局限性,通过课程设计和规模扩展展示了改进方案,使其能够学习十进制数和长表达式的算术运算,同时识别出对称输入上的失败模式,这些模式类似于对抗样本。