@derangineer: 游戏中的山羊

X AI KOLs Following 2026/06/11 22:15 新闻

inference-performance open-source fa4 kernel deep-dive contributions

摘要

Charles Frye 宣布了一篇博客文章，详细介绍了对 FA4 内部结构的贡献，重点在于已上游的推理性能改进。

游戏中的山羊

查看原文

查看缓存全文

缓存时间: 2026/06/12 06:54

游戏中的山羊

Charles 🎉 Frye (@charles_irl): 去年秋天，我们深入剖析了FA4的内部机制。

但我们并未止步于理解内核。

自那以后，我们一直在开发推理性能方面的改进，并将其向上游提交。

这篇博文将介绍这些贡献。

相似文章

X AI KOLs Following

一篇博客文章详细介绍了对FlashAttention-4的贡献，通过调整并行策略和支持不规则内存访问，以提升其在大型语言模型推理中的性能，特别是针对解码密集型工作负载。

X AI KOLs Timeline

关于重塑 Groq LPU 的进展更新，重新设计的向量执行模块更好地支持重叠操作和自注意力。

X AI KOLs Following

关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。

X AI KOLs Following

一篇详细分析ThunderKittens的博客文章，ThunderKittens是用于高性能AI内核的紧凑型DSL。文章包括从底向上的抽象分析，以及一个实现非因果注意力预填充内核的基准测试，该内核比FlashAttention-2快约1.55倍，与FlashAttention-3性能相当。

YouTube AI Channels

Anthropic 公布被雪藏的 Claude Mythos 模型，可自主挖掘数千个 0-day；ZAI 开源 1.5 TB GLM-5.1，登顶开放权重基准；阿里巴巴未发布的 HappyHorse 视频模型冲上公开榜第一；Deepseek 放出“专家模式”v4 预览。