标签
提出了一种基于机制驱动的监测器,用于预判检测LLM训练不稳定性,通过从低精度闪光注意力(flash attention)和MoE路由器中提取内部信号,使得能在损失发散前数千步进行检测。
CMU机器学习系统课程的一本新书教授面向ML系统的现代GPU编程,涵盖Blackwell架构、GEMM和FlashAttention,使用TIRx Python DSL。
NVIDIA Research发布了一篇技术博客,探讨KV缓存压缩技术及其基础设施问题,包括FlashAttention和paged attention如何为长上下文LLM的生产部署带来实际障碍,并提出了一个使用RoPE的几何解决方案。
关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。
解释推理内核与训练不同,Flash Attention 4 侧重于改变跨KV的并行性并支持小型不规则负载。
Parallax 是一种新的参数化局部线性注意力形式,去除了数值求解器,在解码方面与 FlashAttention 2/3 相匹配。其有效性取决于优化器,与 Muon 配合有效,但与 AdamW 配合无效,这凸显了优化器几何形状的作用。
作者记录了学习GPU编程的进展,重点在于理解FlashAttention 2、3和4前向传播的高级区别,并列出了需要进一步探索的几个底层概念。
本文分析了在将softmax输出转换为FP8(E4M3)时,由于注意力凹陷现象导致的FP8注意力精度损失。它表明正向KV迭代会导致非凹陷注意力值下溢,并提出反向迭代和静态缩放因子S=256来消除下溢,实现了3-10倍的MSE改进。
Kazuki Fujii 宣布发布CUDA编程基础系列博客的第一篇,以通俗易懂的方式撰写,对于理解FlashAttention和硬件感知加速技术至关重要。
一种针对RDNA3 GPU上llama.cpp的新packed16 K技术,相比Vulkan fp16将KV缓存VRAM减少47%,使用int8打包和原生dot4指令,以最小的KLD损失保持fp16质量的K值。
此拉取请求针对llama.cpp推理引擎,实现了使用f16掩膜的Flash Attention以减少VRAM使用。
一条推文展示了一个CuTe DSL内核示例,该示例使用布局来表达转置,是FlashAttention-4内核的一部分。
本文批判性地分析了subQ长上下文AI技术的声明和时间线,指出了原始公告中的不一致之处和撤回内容。
自定义二进制解决方案为 llama.cpp 在 AMD RDNA2 GPU 上启用了闪存注意力,推理速度翻倍(70-80 tok/s,而官方版本崩溃)。仅确认与 Qwen3.6 35B/27B 配合使用。
介绍DualKV,一种FlashAttention内核变体,可消除RL后训练(GRPO/DAPO)中冗余的提示词元计算,在30B MoE模型上实现高达3.82倍的加速。
Lighthouse Attention是一种基于选择的分层注意力机制,通过在前向+反向传播中实现约17倍的速度提升(在512K上下文下),并在98K上下文中实现1.4–1.7倍的端到端加速,从而加速长上下文预训练。该机制使用Llama-3 530M模型在50B token上进行了验证。
llama.cpp b9158 已发布,修复了 RDNA3 GPU 上的 Flash Attention 问题,提升了 AMD 用户的性能。
一场关于LLM部署技术的讲座,涵盖AWQ、vLLM、FlashAttention、量化和激活平滑,以实现高效服务。
Meta的内核内广播优化(IKBO)通过内核-模型-系统协同设计,消除了RecSys推理中的冗余用户嵌入广播,在H100 GPU上实现了高达2/3的延迟降低和约4倍加速,并成为Meta自适应排名模型的骨干。
一个高度优化的OpenAI Whisper Large v3版本,使用Transformers、Optimum和Flash Attention 2,能够在Replicate上在2分钟内转录150分钟的音频。