linear-attention

#linear-attention

@xenovacom：Opus 4.7 刚写了一个定制 WebGPU 内核，用融合 LinearAttention 算子把 Qwen3.5 推理速度提升最高 13 倍！智能内核…

X AI KOLs Following ↗ · 2026-04-23 缓存

Opus 4.7 自动生成定制 WebGPU 内核，通过融合 LinearAttention 将 Qwen3.5 推理加速最高 13 倍，现已随 Transformers.js v4.2.0 发布。

0 人收藏 0 人点赞

#linear-attention

Reddit r/LocalLLaMA ↗ · 2026-04-22

MoonshotAI 发布 FlashKDA，开源 CUTLASS 内核实现 Kimi Delta Attention，在 H20 GPU 上相较 Triton 最高提速 2.22 倍。

0 人收藏 0 人点赞