sycl

#sycl

SYCL: 从 CUDA 后端移植多列 MMVQ（在 Intel Arc 上获得约 45% 的推测解码加速）by masonmilby · Pull Request #21845 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-06-05 缓存

一个针对 llama.cpp 的拉取请求，将多列 MMVQ 从 CUDA 移植到 SYCL，在 Intel Arc GPU 上实现了约 45% 的推测解码加速。

0 人收藏 0 人点赞

#sycl

Reddit r/LocalLLaMA ↗ · 2026-06-02 缓存

本文介绍如何使用 llama.cpp 的 SYCL 后端，在 Intel Arc Pro B70 GPU 上使整个模型和 KV 缓存位于显存中，从而实现 Qwen 3.6-35B-A3B 模型每秒超过 60 个 token 的处理速度。

0 人收藏 0 人点赞

#sycl

Reddit r/LocalLLaMA ↗ · 2026-06-02

Intel Arc Pro B70 GPU 在 Qwen 模型上通过 SYCL 运行 llama.cpp 的基准测试结果显示每秒 63 个 token 的性能。

0 人收藏 0 人点赞

#sycl

Reddit r/LocalLLaMA ↗ · 2026-04-23

社区实测显示，在 llama.cpp 下 Intel Arc Pro B70 的提示词处理平均慢约 71%，Token 生成平均慢约 54%；同一张卡 SYCL 后端有时比 Vulkan 更快。

0 人收藏 0 人点赞