kernel-optimization

#kernel-optimization

@bingxu_: 两个月前我创办了INT21，今天我很自豪地宣布我们走出隐身模式，推出第一款产品……

X AI KOLs Timeline ↗ · 2026-06-16 缓存

INT21 宣布推出 PTX Kernel Factory，这是一个自我改进的智能体集群，能够自主大规模生成专家级 PTX GPU 内核，并提供开源概念验证实现和 beta 访问权限。

0 人收藏 0 人点赞

#kernel-optimization

@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

一条推文讨论了两种agentic GPU内核优化系统：@dogacel0的Auto GPU Kernel和@songhan_mit实验室的Kernel Design Agents，两者均在MLSys Sparse Attention FlashInfer比赛中获胜。该帖子突出了使用子代理和Claude技能进行GPU编程的不同方法。

0 人收藏 0 人点赞

#kernel-optimization

@charles_irl: 给不关心FA4在softmax与MMA负载上分配多少warpgroup的人的tl;dr。推理与训练不…

X AI KOLs Following ↗ · 2026-06-11 缓存

解释推理内核与训练不同，Flash Attention 4 侧重于改变跨KV的并行性并支持小型不规则负载。

0 人收藏 0 人点赞

#kernel-optimization

@charles_irl: 去年秋天，我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起，我们一直在…

X AI KOLs Following ↗ · 2026-06-11 缓存

一篇博客文章详细介绍了对FlashAttention-4的贡献，通过调整并行策略和支持不规则内存访问，以提升其在大型语言模型推理中的性能，特别是针对解码密集型工作负载。

0 人收藏 0 人点赞

#kernel-optimization

@_akhaliq: GPU Forecasters 语言模型作为内核运行时优化的选择性代理

X AI KOLs Following ↗ · 2026-06-02 缓存

本文提出使用语言模型作为选择性代理来优化GPU内核运行时，展示了一种新颖的性能预测方法。

0 人收藏 0 人点赞

#kernel-optimization

阿里Qwen3.7-Max在陌生硬件上自主运行35小时，持续自我优化

Reddit r/ArtificialInteligence ↗ · 2026-05-25 缓存

阿里Qwen3.7-Max模型在陌生T-Head PPU硬件上，无需人工引导，自主优化生产内核长达35小时，进行1158次工具调用，实现10倍速度提升，展示了持续的自主智能体行为。

0 人收藏 0 人点赞

#kernel-optimization

@ickma2311: 高效AI讲座13：LLM部署技术该讲座帮助我很好地理解了AWQ、vLLM和FlashAttention…

X AI KOLs Timeline ↗ · 2026-05-13 缓存

一场关于LLM部署技术的讲座，涵盖AWQ、vLLM、FlashAttention、量化和激活平滑，以实现高效服务。

0 人收藏 0 人点赞

#kernel-optimization

Metal-Sci：用于 Apple Silicon 上 LLM 驱动演化内核搜索的科学计算基准

Hugging Face Daily Papers ↗ · 2026-05-10 缓存

Metal-Sci 推出了一项包含 10 个任务的基准测试，用于优化 Apple Silicon 上的科学计算内核，并配套了由大语言模型驱动的演化搜索框架。该研究评估了 Claude Opus 4.7、Gemini 3.1 Pro 和 GPT 5.5 等模型，在实现显著加速的同时，利用分布外测试来捕获静默的性能退化问题。

0 人收藏 0 人点赞

#kernel-optimization

@xenovacom：Opus 4.7 刚写了一个定制 WebGPU 内核，用融合 LinearAttention 算子把 Qwen3.5 推理速度提升最高 13 倍！智能内核…

X AI KOLs Following ↗ · 2026-04-23 缓存

Opus 4.7 自动生成定制 WebGPU 内核，通过融合 LinearAttention 将 Qwen3.5 推理加速最高 13 倍，现已随 Transformers.js v4.2.0 发布。

0 人收藏 0 人点赞

#kernel-optimization

AccelOpt：一种用于AI加速器内核优化的自我改进LLM智能体系统

Hugging Face Daily Papers ↗ · 2026-04-15 缓存

AccelOpt是一种自我改进的LLM智能体系统，通过迭代生成和优化记忆自主优化AI加速器内核，在AWS Trainium上实现了49%至61%的峰值吞吐量提升，同时比Claude Sonnet 4便宜26倍。

0 人收藏 0 人点赞

kernel-optimization

提交意见反馈