标签
INT21 宣布推出 PTX Kernel Factory,这是一个自我改进的智能体集群,能够自主大规模生成专家级 PTX GPU 内核,并提供开源概念验证实现和 beta 访问权限。
一条推文讨论了两种agentic GPU内核优化系统:@dogacel0的Auto GPU Kernel和@songhan_mit实验室的Kernel Design Agents,两者均在MLSys Sparse Attention FlashInfer比赛中获胜。该帖子突出了使用子代理和Claude技能进行GPU编程的不同方法。
解释推理内核与训练不同,Flash Attention 4 侧重于改变跨KV的并行性并支持小型不规则负载。
一篇博客文章详细介绍了对FlashAttention-4的贡献,通过调整并行策略和支持不规则内存访问,以提升其在大型语言模型推理中的性能,特别是针对解码密集型工作负载。
本文提出使用语言模型作为选择性代理来优化GPU内核运行时,展示了一种新颖的性能预测方法。
阿里Qwen3.7-Max模型在陌生T-Head PPU硬件上,无需人工引导,自主优化生产内核长达35小时,进行1158次工具调用,实现10倍速度提升,展示了持续的自主智能体行为。
一场关于LLM部署技术的讲座,涵盖AWQ、vLLM、FlashAttention、量化和激活平滑,以实现高效服务。
Metal-Sci 推出了一项包含 10 个任务的基准测试,用于优化 Apple Silicon 上的科学计算内核,并配套了由大语言模型驱动的演化搜索框架。该研究评估了 Claude Opus 4.7、Gemini 3.1 Pro 和 GPT 5.5 等模型,在实现显著加速的同时,利用分布外测试来捕获静默的性能退化问题。
Opus 4.7 自动生成定制 WebGPU 内核,通过融合 LinearAttention 将 Qwen3.5 推理加速最高 13 倍,现已随 Transformers.js v4.2.0 发布。
AccelOpt是一种自我改进的LLM智能体系统,通过迭代生成和优化记忆自主优化AI加速器内核,在AWS Trainium上实现了49%至61%的峰值吞吐量提升,同时比Claude Sonnet 4便宜26倍。