linear-attention

#linear-attention

通过误差控制动力学重新思考循环模型中的状态跟踪

Hugging Face Daily Papers ↗ · 2026-05-08 缓存

本文认为，循环模型中鲁棒的状态跟踪取决于误差控制动力学，而不仅仅取决于表达能力，证明了仿射循环网络会遭受累积误差的影响，从而限制了其有效视野。

0 人收藏 0 人点赞

#linear-attention

Hugging Face Daily Papers ↗ · 2026-05-07 缓存

该论文介绍了动量 DeltaNet（MDN），一种线性注意力模型。它利用逐步动量和并行算法，在训练效率和性能上超越了 Mamba2 等模型。

0 人收藏 0 人点赞

#linear-attention

X AI KOLs Following ↗ · 2026-04-23 缓存

Opus 4.7 自动生成定制 WebGPU 内核，通过融合 LinearAttention 将 Qwen3.5 推理加速最高 13 倍，现已随 Transformers.js v4.2.0 发布。

0 人收藏 0 人点赞

#linear-attention

Reddit r/LocalLLaMA ↗ · 2026-04-22

MoonshotAI 发布 FlashKDA，开源 CUTLASS 内核实现 Kimi Delta Attention，在 H20 GPU 上相较 Triton 最高提速 2.22 倍。

0 人收藏 0 人点赞

#linear-attention

Papers with Code Trending ↗ · 2025-09-29 缓存

SANA-Video是一个小型扩散模型，利用线性注意力和恒定内存KV缓存，高效生成高分辨率、长时长的视频，以显著更低的成本和更快的速度实现与现有模型相媲美的性能。

0 人收藏 0 人点赞