@xenovacom：Opus 4.7 刚写了一个定制 WebGPU 内核，用融合 LinearAttention 算子把 Qwen3.5 推理速度提升最高 13 倍！智能内核…

X AI KOLs Following 2026/04/23 13:15 工具

摘要

Opus 4.7 自动生成定制 WebGPU 内核，通过融合 LinearAttention 将 Qwen3.5 推理加速最高 13 倍，现已随 Transformers.js v4.2.0 发布。

Opus 4.7 刚写了一个定制 WebGPU 内核，用融合 LinearAttention 算子把 Qwen3.5 推理速度提升最高 13 倍！智能内核优化才是未来。已在 Transformers.js v4.2.0 上线！顺便把之前所有 demo 都升级到新版本，尽情享用！

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/23 14:07

Opus 4.7 刚刚编写了一个自定义 WebGPU 内核，通过融合 LinearAttention 操作，让 Qwen3.5 的运行速度提升高达 13 倍！智能内核优化才是未来。现已上线 Transformers.js v4.2.0！
P.S. 我已将所有旧演示更新到这一新版本，尽情享用！

相似文章

试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode，真不敢相信居然能用

Reddit r/LocalLLaMA

用户报告称，在 RTX 5090 本地运行 Qwen3-27B-UD-Q6_K_XL.gguf，200K 上下文速度约 50 tok/s，编码表现出乎意料地可用，标志着本地模型质量大幅跃升。

@bastani_behnam：我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点，成本仅为一小部分……

X AI KOLs Following

OpenInfer 展示“垂直拆解”，通过单节点 AMD EPYC CPU 与 Nvidia L40S GPU 协同执行量化层，并配合自定义 SLA 感知调度器，将 Qwen 3.5 27B 的吞吐量提升约 50%。

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

X AI KOLs Following

A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.

@KyleHessling1：兄弟们，我彻底震惊了。Qwen 3.6 27B 的提升幅度，就像直接从 Qwen 27B 3.5 跨到 Qwen 4。我刚跑完一整套前端设计测试和智能体基准，全部由它完成。结论：效果远超预期，我完全惊呆。

X AI KOLs Following

早期用户反馈：Qwen 3.6 27B 相比 3.5 性能暴涨，在前端设计与智能体基准上表现尤为亮眼。

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

相似文章

试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode，真不敢相信居然能用

@bastani_behnam：我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点，成本仅为一小部分……

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

@KyleHessling1：兄弟们，我彻底震惊了。Qwen 3.6 27B 的提升幅度，就像直接从 Qwen 27B 3.5 跨到 Qwen 4。我刚跑完一整套前端设计测试和智能体基准，全部由它完成。结论：效果远超预期，我完全惊呆。

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

提交意见反馈