@xenovacom:Opus 4.7 刚写了一个定制 WebGPU 内核,用融合 LinearAttention 算子把 Qwen3.5 推理速度提升最高 13 倍!智能内核…
摘要
Opus 4.7 自动生成定制 WebGPU 内核,通过融合 LinearAttention 将 Qwen3.5 推理加速最高 13 倍,现已随 Transformers.js v4.2.0 发布。
查看缓存全文
缓存时间: 2026/04/23 14:07
Opus 4.7 刚刚编写了一个自定义 WebGPU 内核,通过融合 LinearAttention 操作,让 Qwen3.5 的运行速度提升高达 13 倍!智能内核优化才是未来。现已上线 Transformers.js v4.2.0!
P.S. 我已将所有旧演示更新到这一新版本,尽情享用!
相似文章
@ngxson: Qwen3.6-27B 在 WebGPU 上 100% 运行。速度不是最快,但仍然不错
一位开发者演示在浏览器中完全通过 WebGPU 运行 Qwen3.6-27B AI 模型,尽管速度并非最优。
@cniongolo: 我不确定大家是否已经意识到,你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…
演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上,使用 Hugging Face Inference 运行自定义 Qwen 模型(Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF),达到每秒约 195 个 token 的处理速度。
@TeksEdge: 已解决!Qwen3.6-27B-FP8 现已在 Intel Arc Pro B70 上运行!LocalMaxxing 展示了 4× Arc Pro B70 32GB 的有效运行,速度约 5…
Qwen3.6-27B-FP8 模型现已在 Intel Arc Pro B70 GPU 上运行,速度约 50 tok/s,并修复了 vLLM 的一个 bug,这标志着 Intel GPU 本地 AI 推理的一个重要里程碑。
@SpaceTimeViking: Qwen3.6 27B 在新的 AEON ULTIMATE VLLM 镜像上备受青睐 @NVIDIAAI DGX SPARK OPTIMIZED!https://github.com/AEO…
AEON-7 发布了 Qwen3.6-27B 的完全无审查、能力增强的 ablitation 版本,针对 NVIDIA DGX Spark 进行了优化,采用 NVFP4 量化和 DFlash 推测解码以提升性能。
@sudoingX:更新:Qwen 3.6 27b dense q4 在单张 3090 上一次生成了 Octopus Invaders 游戏。Hermes Agent 驱动了整个事…
用户基准测试表明,Qwen 3.6 27B dense 模型(Q4 量化)能够在单张 RTX 3090 上通过单次提示自主生成一个完全可玩的多文件游戏,性能显著优于其前代版本,且无需任何人工干预。测试结果突显了在消费级硬件上本地代码生成和智能体能力方面的重大改进。