提示:使用这个llama.cpp的PR提升Intel ARC上的提示处理速度
摘要
一个llama.cpp的PR显著提升了Intel ARC GPU上的提示处理速度,基准测试显示在B580上从245t/s提升到462t/s。目前该改进仅适用于F16 KV量化,计划后续支持其他量化方式。
https://github.com/ggml-org/llama.cpp/pull/25222 Intel ARC用户的又一次胜利(我们这4个人)。社区持续在改进llama.cpp对Intel ARC的支持。这一次,那个Pull Request中的英雄(在Claude的帮助下)大幅提升了提示处理速度。作为对比,我有一块B580和一个116k上下文的对话,以前从头处理需要510秒,速度245t/s;现在只需262秒,速度达到462t/s;Qwen3.6 35B A3B Q5_K_XL ./llama-server --host 0.0.0.0 --port 8080 --model /models/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf --jinja --threads 8 --ctx-size 262144 --cache-ram 0 --parallel 1 --temperature 0.0 --top-p 0.2 --top-k 20 --no-mmap --spec-type draft-mtp --spec-draft-n-max 3 --batch-size 2700 --ubatch-size 2700 --n-gpu-layers 99 --n-cpu-moe 99。唯一的缺点是目前仅支持F16 KV,但贡献者表示后续会处理其他量化方式。你看,Intel的硬件非常强大,能够做很棒的事情,社区和Intel的每一次贡献都让我们更接近充分发挥硬件的全部速度。
相似文章
Intel Arc Pro B70 llama.cpp 基准测试结果公布
Intel Arc Pro B70 GPU 在 Qwen 模型上通过 SYCL 运行 llama.cpp 的基准测试结果显示每秒 63 个 token 的性能。
SYCL: 从 CUDA 后端移植多列 MMVQ(在 Intel Arc 上获得约 45% 的推测解码加速)by masonmilby · Pull Request #21845 · ggml-org/llama.cpp
一个针对 llama.cpp 的拉取请求,将多列 MMVQ 从 CUDA 移植到 SYCL,在 Intel Arc GPU 上实现了约 45% 的推测解码加速。
双GPU llama.cpp加速
llama.cpp的一个分支修复了量化KV缓存中的--split-mode tensor问题,在双GPU配置上实现高达40%的速度提升,且无质量损失。
Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tok/s 提示处理与 26.2万上下文窗口
本文介绍如何使用 llama.cpp 的 SYCL 后端,在 Intel Arc Pro B70 GPU 上使整个模型和 KV 缓存位于显存中,从而实现 Qwen 3.6-35B-A3B 模型每秒超过 60 个 token 的处理速度。
Strix Halo 用户:一个被拒绝的 PR 可使 MOE 的 PP 速度提升高达 30%。
一个针对 llama.cpp 的被拒绝的 PR 可在 AMD Strix Halo 硬件上为 MOE 模型提供高达 30% 的提示处理速度提升,但增益会随上下文长度增加而递减。