@xenovacom:Opus 4.7 刚写了一个定制 WebGPU 内核,用融合 LinearAttention 算子把 Qwen3.5 推理速度提升最高 13 倍!智能内核…

X AI KOLs Following 工具

摘要

Opus 4.7 自动生成定制 WebGPU 内核,通过融合 LinearAttention 将 Qwen3.5 推理加速最高 13 倍,现已随 Transformers.js v4.2.0 发布。

Opus 4.7 刚写了一个定制 WebGPU 内核,用融合 LinearAttention 算子把 Qwen3.5 推理速度提升最高 13 倍!智能内核优化才是未来。已在 Transformers.js v4.2.0 上线!顺便把之前所有 demo 都升级到新版本,尽情享用!
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/23 14:07

Opus 4.7 刚刚编写了一个自定义 WebGPU 内核,通过融合 LinearAttention 操作,让 Qwen3.5 的运行速度提升高达 13 倍!智能内核优化才是未来。现已上线 Transformers.js v4.2.0!
P.S. 我已将所有旧演示更新到这一新版本,尽情享用!

相似文章