@xenovacom:Opus 4.7 刚写了一个定制 WebGPU 内核,用融合 LinearAttention 算子把 Qwen3.5 推理速度提升最高 13 倍!智能内核…
摘要
Opus 4.7 自动生成定制 WebGPU 内核,通过融合 LinearAttention 将 Qwen3.5 推理加速最高 13 倍,现已随 Transformers.js v4.2.0 发布。
查看缓存全文
缓存时间: 2026/04/23 14:07
Opus 4.7 刚刚编写了一个自定义 WebGPU 内核,通过融合 LinearAttention 操作,让 Qwen3.5 的运行速度提升高达 13 倍!智能内核优化才是未来。现已上线 Transformers.js v4.2.0!
P.S. 我已将所有旧演示更新到这一新版本,尽情享用!
相似文章
试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode,真不敢相信居然能用
用户报告称,在 RTX 5090 本地运行 Qwen3-27B-UD-Q6_K_XL.gguf,200K 上下文速度约 50 tok/s,编码表现出乎意料地可用,标志着本地模型质量大幅跃升。
@bastani_behnam:我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点,成本仅为一小部分……
OpenInfer 展示“垂直拆解”,通过单节点 AMD EPYC CPU 与 Nvidia L40S GPU 协同执行量化层,并配合自定义 SLA 感知调度器,将 Qwen 3.5 27B 的吞吐量提升约 50%。
@seclink: 这家伙刚刚在一块单张 3090 显卡上,跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度,以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区,其发展速度简直如神速一般。…
A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.
@KyleHessling1:兄弟们,我彻底震惊了。Qwen 3.6 27B 的提升幅度,就像直接从 Qwen 27B 3.5 跨到 Qwen 4。我刚跑完一整套前端设计测试和智能体基准,全部由它完成。结论:效果远超预期,我完全惊呆。
早期用户反馈:Qwen 3.6 27B 相比 3.5 性能暴涨,在前端设计与智能体基准上表现尤为亮眼。
成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒
开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。