标签
本文认为,循环模型中鲁棒的状态跟踪取决于误差控制动力学,而不仅仅取决于表达能力,证明了仿射循环网络会遭受累积误差的影响,从而限制了其有效视野。
该论文介绍了动量 DeltaNet(MDN),一种线性注意力模型。它利用逐步动量和并行算法,在训练效率和性能上超越了 Mamba2 等模型。
Opus 4.7 自动生成定制 WebGPU 内核,通过融合 LinearAttention 将 Qwen3.5 推理加速最高 13 倍,现已随 Transformers.js v4.2.0 发布。
MoonshotAI 发布 FlashKDA,开源 CUTLASS 内核实现 Kimi Delta Attention,在 H20 GPU 上相较 Triton 最高提速 2.22 倍。
SANA-Video是一个小型扩散模型,利用线性注意力和恒定内存KV缓存,高效生成高分辨率、长时长的视频,以显著更低的成本和更快的速度实现与现有模型相媲美的性能。