flash-attention

#flash-attention

机制驱动的LLM训练不稳定性预判监测器

arXiv cs.CL ↗ · 昨天缓存

提出了一种基于机制驱动的监测器，用于预判检测LLM训练不稳定性，通过从低精度闪光注意力（flash attention）和MoE路由器中提取内部信号，使得能在损失发散前数千步进行检测。

0 人收藏 0 人点赞

#flash-attention

面向MLSys的现代GPU编程

Hacker News Top ↗ · 6天前缓存

CMU机器学习系统课程的一本新书教授面向ML系统的现代GPU编程，涵盖Blackwell架构、GEMM和FlashAttention，使用TIRx Python DSL。

0 人收藏 0 人点赞

#flash-attention

@yukangchen_: 我们很高兴分享一篇新的技术文章《KV缓存压缩及其基础设施问题》。https://research.nvidia.…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

NVIDIA Research发布了一篇技术博客，探讨KV缓存压缩技术及其基础设施问题，包括FlashAttention和paged attention如何为长上下文LLM的生产部署带来实际障碍，并提出了一个使用RoPE的几何解决方案。

0 人收藏 0 人点赞

#flash-attention

@charles_irl: 重写并行是一项重大举措，如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…

X AI KOLs Following ↗ · 2026-06-11 缓存

关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。

0 人收藏 0 人点赞

#flash-attention

@charles_irl: 给不关心FA4在softmax与MMA负载上分配多少warpgroup的人的tl;dr。推理与训练不…

X AI KOLs Following ↗ · 2026-06-11 缓存

解释推理内核与训练不同，Flash Attention 4 侧重于改变跨KV的并行性并支持小型不规则负载。

0 人收藏 0 人点赞

#flash-attention

@maximelabonne: Parallax 是一种参数化的局部线性注意力形式，它摒弃了数值求解器，在解码性能上媲美 FA 2/3……

X AI KOLs Following ↗ · 2026-06-10 缓存

Parallax 是一种新的参数化局部线性注意力形式，去除了数值求解器，在解码方面与 FlashAttention 2/3 相匹配。其有效性取决于优化器，与 Muon 配合有效，但与 AdamW 配合无效，这凸显了优化器几何形状的作用。

0 人收藏 0 人点赞

#flash-attention

@levidiamode: GPU编程第158/365天——我觉得我大致理解了FlashAttention 2、3和4前向传播的高级区别…

X AI KOLs Timeline ↗ · 2026-06-10 缓存

作者记录了学习GPU编程的进展，重点在于理解FlashAttention 2、3和4前向传播的高级区别，并列出了需要进一步探索的几个底层概念。

0 人收藏 0 人点赞

#flash-attention

FP8注意力中的P-Cast精度：凹陷引发的崩溃与S=2^8的最优性

arXiv cs.AI ↗ · 2026-06-08 缓存

本文分析了在将softmax输出转换为FP8（E4M3）时，由于注意力凹陷现象导致的FP8注意力精度损失。它表明正向KV迭代会导致非凹陷注意力值下溢，并提出反向迭代和静态缩放因子S=256来消除下溢，实现了3-10倍的MSE改进。

0 人收藏 0 人点赞

#flash-attention

@kazukifujii: 技术博客发布日5 这是系列博客的第一篇，从基础开始讲解CUDA编程，以…

X AI KOLs Timeline ↗ · 2026-06-04 缓存

Kazuki Fujii 宣布发布CUDA编程基础系列博客的第一篇，以通俗易懂的方式撰写，对于理解FlashAttention和硬件感知加速技术至关重要。

0 人收藏 0 人点赞

#flash-attention

RDNA3上llama.cpp的Flash Attention：比Vulkan f16 K减少47% KV VRAM，在F16 K / q4_0 V上KLD几乎无损。第一部分。

Reddit r/LocalLLaMA ↗ · 2026-05-31

一种针对RDNA3 GPU上llama.cpp的新packed16 K技术，相比Vulkan fp16将KV缓存VRAM减少47%，使用int8打包和原生dot4指令，以最小的KLD损失保持fp16质量的K值。

0 人收藏 0 人点赞

#flash-attention

llama: 使用f16掩膜进行FA以节省VRAM（作者 am17an）· 拉取请求 #23764 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-05-29 缓存

此拉取请求针对llama.cpp推理引擎，实现了使用f16掩膜的Flash Attention以减少VRAM使用。

0 人收藏 0 人点赞

#flash-attention

@charles_irl: ^这是CuTe DSL的一个示例，它用于FlashAttention-4内核等。以下是CuTe示例内核…

X AI KOLs Following ↗ · 2026-05-26

一条推文展示了一个CuTe DSL内核示例，该示例使用布局来表达转置，是FlashAttention-4内核的一部分。

0 人收藏 0 人点赞

#flash-attention

@no_stp_on_snek: https://subq.mildlyconcerning.com

X AI KOLs Timeline ↗ · 2026-05-26 缓存

本文批判性地分析了subQ长上下文AI技术的声明和时间线，指出了原始公告中的不一致之处和撤回内容。

0 人收藏 0 人点赞

#flash-attention

RDNA2 闪存注意力在官方版本中未启用，我通过这个构建启用了它，速度翻倍

Reddit r/LocalLLaMA ↗ · 2026-05-19

自定义二进制解决方案为 llama.cpp 在 AMD RDNA2 GPU 上启用了闪存注意力，推理速度翻倍（70-80 tok/s，而官方版本崩溃）。仅确认与 Qwen3.6 35B/27B 配合使用。

0 人收藏 0 人点赞

#flash-attention

DualKV: 针对大规模生成和长上下文的共享提示Flash Attention，用于高效RL训练

arXiv cs.LG ↗ · 2026-05-18 缓存

介绍DualKV，一种FlashAttention内核变体，可消除RL后训练（GRPO/DAPO）中冗余的提示词元计算，在30B MoE模型上实现高达3.82倍的加速。

0 人收藏 0 人点赞

#flash-attention

Lighthouse Attention（11分钟阅读）

TLDR AI ↗ · 2026-05-18 缓存

Lighthouse Attention是一种基于选择的分层注意力机制，通过在前向+反向传播中实现约17倍的速度提升（在512K上下文下），并在98K上下文中实现1.4–1.7倍的端到端加速，从而加速长上下文预训练。该机制使用Llama-3 530M模型在50B token上进行了验证。

0 人收藏 0 人点赞

#flash-attention

llama.cpp b9158 刚刚发布了 RDNA3 Flash Attention 修复

Reddit r/LocalLLaMA ↗ · 2026-05-15

llama.cpp b9158 已发布，修复了 RDNA3 GPU 上的 Flash Attention 问题，提升了 AMD 用户的性能。

0 人收藏 0 人点赞

#flash-attention

@ickma2311: 高效AI讲座13：LLM部署技术该讲座帮助我很好地理解了AWQ、vLLM和FlashAttention…

X AI KOLs Timeline ↗ · 2026-05-13 缓存

一场关于LLM部署技术的讲座，涵盖AWQ、vLLM、FlashAttention、量化和激活平滑，以实现高效服务。

0 人收藏 0 人点赞

#flash-attention

Meta的优化版RecSys推理（58分钟阅读）

TLDR AI ↗ · 2026-05-08 缓存

Meta的内核内广播优化（IKBO）通过内核-模型-系统协同设计，消除了RecSys推理中的冗余用户嵌入广播，在H100 GPU上实现了高达2/3的延迟降低和约4倍加速，并成为Meta自适应排名模型的骨干。

0 人收藏 0 人点赞

#flash-attention

vaibhavs10/incredibly-fast-whisper

Replicate Explore ↗ · 2026-05-08 缓存

一个高度优化的OpenAI Whisper Large v3版本，使用Transformers、Optimum和Flash Attention 2，能够在Replicate上在2分钟内转录150分钟的音频。

0 人收藏 0 人点赞

flash-attention

提交意见反馈