标签
Opus 4.7 自动生成定制 WebGPU 内核,通过融合 LinearAttention 将 Qwen3.5 推理加速最高 13 倍,现已随 Transformers.js v4.2.0 发布。
MoonshotAI 发布 FlashKDA,开源 CUTLASS 内核实现 Kimi Delta Attention,在 H20 GPU 上相较 Triton 最高提速 2.22 倍。