@derangineer: 游戏中的山羊
摘要
Charles Frye 宣布了一篇博客文章,详细介绍了对 FA4 内部结构的贡献,重点在于已上游的推理性能改进。
游戏中的山羊
查看缓存全文
缓存时间: 2026/06/12 06:54
游戏中的山羊
Charles 🎉 Frye (@charles_irl): 去年秋天,我们深入剖析了FA4的内部机制。
但我们并未止步于理解内核。
自那以后,我们一直在开发推理性能方面的改进,并将其向上游提交。
这篇博文将介绍这些贡献。
相似文章
@charles_irl: 去年秋天,我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起,我们一直在…
一篇博客文章详细介绍了对FlashAttention-4的贡献,通过调整并行策略和支持不规则内存访问,以提升其在大型语言模型推理中的性能,特别是针对解码密集型工作负载。
@satvikgari: 唤醒山羊发布了
关于重塑 Groq LPU 的进展更新,重新设计的向量执行模块更好地支持重叠操作和自注意力。
@charles_irl: 重写并行是一项重大举措,如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…
关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。
@hamzaelshafie: 新深度博客文章:《剖析ThunderKittens:高性能AI内核的紧凑型DSL解剖》这篇帖子……
一篇详细分析ThunderKittens的博客文章,ThunderKittens是用于高性能AI内核的紧凑型DSL。文章包括从底向上的抽象分析,以及一个实现非因果注意力预填充内核的基准测试,该内核比FlashAttention-2快约1.55倍,与FlashAttention-3性能相当。
Claude Mythos、Deepseek v4、HappyHorse、Meta 新 AI、实时视频游戏:AI 新闻
Anthropic 公布被雪藏的 Claude Mythos 模型,可自主挖掘数千个 0-day;ZAI 开源 1.5 TB GLM-5.1,登顶开放权重基准;阿里巴巴未发布的 HappyHorse 视频模型冲上公开榜第一;Deepseek 放出“专家模式”v4 预览。