intel-arc

#intel-arc

SYCL: 从 CUDA 后端移植多列 MMVQ（在 Intel Arc 上获得约 45% 的推测解码加速）by masonmilby · Pull Request #21845 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-06-05 缓存

一个针对 llama.cpp 的拉取请求，将多列 MMVQ 从 CUDA 移植到 SYCL，在 Intel Arc GPU 上实现了约 45% 的推测解码加速。

0 人收藏 0 人点赞

#intel-arc

X AI KOLs Following ↗ · 2026-05-15 缓存

Qwen3.6-27B-FP8 模型现已在 Intel Arc Pro B70 GPU 上运行，速度约 50 tok/s，并修复了 vLLM 的一个 bug，这标志着 Intel GPU 本地 AI 推理的一个重要里程碑。

0 人收藏 0 人点赞

#intel-arc

Reddit r/LocalLLaMA ↗ · 2026-04-23

社区实测显示，在 llama.cpp 下 Intel Arc Pro B70 的提示词处理平均慢约 71%，Token 生成平均慢约 54%；同一张卡 SYCL 后端有时比 Vulkan 更快。

0 人收藏 0 人点赞