标签
一个针对 llama.cpp 的拉取请求,将多列 MMVQ 从 CUDA 移植到 SYCL,在 Intel Arc GPU 上实现了约 45% 的推测解码加速。
本文介绍如何使用 llama.cpp 的 SYCL 后端,在 Intel Arc Pro B70 GPU 上使整个模型和 KV 缓存位于显存中,从而实现 Qwen 3.6-35B-A3B 模型每秒超过 60 个 token 的处理速度。
Intel Arc Pro B70 GPU 在 Qwen 模型上通过 SYCL 运行 llama.cpp 的基准测试结果显示每秒 63 个 token 的性能。
社区实测显示,在 llama.cpp 下 Intel Arc Pro B70 的提示词处理平均慢约 71%,Token 生成平均慢约 54%;同一张卡 SYCL 后端有时比 Vulkan 更快。