flash-attention

标签

Cards List
#flash-attention

机制驱动的LLM训练不稳定性预判监测器

arXiv cs.CL · 昨天 缓存

提出了一种基于机制驱动的监测器,用于预判检测LLM训练不稳定性,通过从低精度闪光注意力(flash attention)和MoE路由器中提取内部信号,使得能在损失发散前数千步进行检测。

0 人收藏 0 人点赞
#flash-attention

面向MLSys的现代GPU编程

Hacker News Top · 6天前 缓存

CMU机器学习系统课程的一本新书教授面向ML系统的现代GPU编程,涵盖Blackwell架构、GEMM和FlashAttention,使用TIRx Python DSL。

0 人收藏 0 人点赞
#flash-attention

@yukangchen_: 我们很高兴分享一篇新的技术文章《KV缓存压缩及其基础设施问题》。https://research.nvidia.…

X AI KOLs Timeline · 2026-06-16 缓存

NVIDIA Research发布了一篇技术博客,探讨KV缓存压缩技术及其基础设施问题,包括FlashAttention和paged attention如何为长上下文LLM的生产部署带来实际障碍,并提出了一个使用RoPE的几何解决方案。

0 人收藏 0 人点赞
#flash-attention

@charles_irl: 重写并行是一项重大举措,如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…

X AI KOLs Following · 2026-06-11 缓存

关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。

0 人收藏 0 人点赞
#flash-attention

@charles_irl: 给不关心FA4在softmax与MMA负载上分配多少warpgroup的人的tl;dr。推理与训练不…

X AI KOLs Following · 2026-06-11 缓存

解释推理内核与训练不同,Flash Attention 4 侧重于改变跨KV的并行性并支持小型不规则负载。

0 人收藏 0 人点赞
#flash-attention

@maximelabonne: Parallax 是一种参数化的局部线性注意力形式,它摒弃了数值求解器,在解码性能上媲美 FA 2/3……

X AI KOLs Following · 2026-06-10 缓存

Parallax 是一种新的参数化局部线性注意力形式,去除了数值求解器,在解码方面与 FlashAttention 2/3 相匹配。其有效性取决于优化器,与 Muon 配合有效,但与 AdamW 配合无效,这凸显了优化器几何形状的作用。

0 人收藏 0 人点赞
#flash-attention

@levidiamode: GPU编程第158/365天——我觉得我大致理解了FlashAttention 2、3和4前向传播的高级区别…

X AI KOLs Timeline · 2026-06-10 缓存

作者记录了学习GPU编程的进展,重点在于理解FlashAttention 2、3和4前向传播的高级区别,并列出了需要进一步探索的几个底层概念。

0 人收藏 0 人点赞
#flash-attention

FP8注意力中的P-Cast精度:凹陷引发的崩溃与S=2^8的最优性

arXiv cs.AI · 2026-06-08 缓存

本文分析了在将softmax输出转换为FP8(E4M3)时,由于注意力凹陷现象导致的FP8注意力精度损失。它表明正向KV迭代会导致非凹陷注意力值下溢,并提出反向迭代和静态缩放因子S=256来消除下溢,实现了3-10倍的MSE改进。

0 人收藏 0 人点赞
#flash-attention

@kazukifujii: 技术博客发布日5 这是系列博客的第一篇,从基础开始讲解CUDA编程,以…

X AI KOLs Timeline · 2026-06-04 缓存

Kazuki Fujii 宣布发布CUDA编程基础系列博客的第一篇,以通俗易懂的方式撰写,对于理解FlashAttention和硬件感知加速技术至关重要。

0 人收藏 0 人点赞
#flash-attention

RDNA3上llama.cpp的Flash Attention:比Vulkan f16 K减少47% KV VRAM,在F16 K / q4_0 V上KLD几乎无损。第一部分。

Reddit r/LocalLLaMA · 2026-05-31

一种针对RDNA3 GPU上llama.cpp的新packed16 K技术,相比Vulkan fp16将KV缓存VRAM减少47%,使用int8打包和原生dot4指令,以最小的KLD损失保持fp16质量的K值。

0 人收藏 0 人点赞
#flash-attention

llama: 使用f16掩膜进行FA以节省VRAM(作者 am17an)· 拉取请求 #23764 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 2026-05-29 缓存

此拉取请求针对llama.cpp推理引擎,实现了使用f16掩膜的Flash Attention以减少VRAM使用。

0 人收藏 0 人点赞
#flash-attention

@charles_irl: ^这是CuTe DSL的一个示例,它用于FlashAttention-4内核等。以下是CuTe示例内核…

X AI KOLs Following · 2026-05-26

一条推文展示了一个CuTe DSL内核示例,该示例使用布局来表达转置,是FlashAttention-4内核的一部分。

0 人收藏 0 人点赞
#flash-attention

@no_stp_on_snek: https://subq.mildlyconcerning.com

X AI KOLs Timeline · 2026-05-26 缓存

本文批判性地分析了subQ长上下文AI技术的声明和时间线,指出了原始公告中的不一致之处和撤回内容。

0 人收藏 0 人点赞
#flash-attention

RDNA2 闪存注意力在官方版本中未启用,我通过这个构建启用了它,速度翻倍

Reddit r/LocalLLaMA · 2026-05-19

自定义二进制解决方案为 llama.cpp 在 AMD RDNA2 GPU 上启用了闪存注意力,推理速度翻倍(70-80 tok/s,而官方版本崩溃)。仅确认与 Qwen3.6 35B/27B 配合使用。

0 人收藏 0 人点赞
#flash-attention

DualKV: 针对大规模生成和长上下文的共享提示Flash Attention,用于高效RL训练

arXiv cs.LG · 2026-05-18 缓存

介绍DualKV,一种FlashAttention内核变体,可消除RL后训练(GRPO/DAPO)中冗余的提示词元计算,在30B MoE模型上实现高达3.82倍的加速。

0 人收藏 0 人点赞
#flash-attention

Lighthouse Attention(11分钟阅读)

TLDR AI · 2026-05-18 缓存

Lighthouse Attention是一种基于选择的分层注意力机制,通过在前向+反向传播中实现约17倍的速度提升(在512K上下文下),并在98K上下文中实现1.4–1.7倍的端到端加速,从而加速长上下文预训练。该机制使用Llama-3 530M模型在50B token上进行了验证。

0 人收藏 0 人点赞
#flash-attention

llama.cpp b9158 刚刚发布了 RDNA3 Flash Attention 修复

Reddit r/LocalLLaMA · 2026-05-15

llama.cpp b9158 已发布,修复了 RDNA3 GPU 上的 Flash Attention 问题,提升了 AMD 用户的性能。

0 人收藏 0 人点赞
#flash-attention

@ickma2311: 高效AI讲座13:LLM部署技术 该讲座帮助我很好地理解了AWQ、vLLM和FlashAttention…

X AI KOLs Timeline · 2026-05-13 缓存

一场关于LLM部署技术的讲座,涵盖AWQ、vLLM、FlashAttention、量化和激活平滑,以实现高效服务。

0 人收藏 0 人点赞
#flash-attention

Meta的优化版RecSys推理(58分钟阅读)

TLDR AI · 2026-05-08 缓存

Meta的内核内广播优化(IKBO)通过内核-模型-系统协同设计,消除了RecSys推理中的冗余用户嵌入广播,在H100 GPU上实现了高达2/3的延迟降低和约4倍加速,并成为Meta自适应排名模型的骨干。

0 人收藏 0 人点赞
#flash-attention

vaibhavs10/incredibly-fast-whisper

Replicate Explore · 2026-05-08 缓存

一个高度优化的OpenAI Whisper Large v3版本,使用Transformers、Optimum和Flash Attention 2,能够在Replicate上在2分钟内转录150分钟的音频。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈