提示：使用这个llama.cpp的PR提升Intel ARC上的提示处理速度

Reddit r/LocalLLaMA 2026/07/02 21:29 工具

llama-cpp intel-arc prompt-processing speed-improvement open-source gpu

摘要

一个llama.cpp的PR显著提升了Intel ARC GPU上的提示处理速度，基准测试显示在B580上从245t/s提升到462t/s。目前该改进仅适用于F16 KV量化，计划后续支持其他量化方式。

https://github.com/ggml-org/llama.cpp/pull/25222 Intel ARC用户的又一次胜利（我们这4个人）。社区持续在改进llama.cpp对Intel ARC的支持。这一次，那个Pull Request中的英雄（在Claude的帮助下）大幅提升了提示处理速度。作为对比，我有一块B580和一个116k上下文的对话，以前从头处理需要510秒，速度245t/s；现在只需262秒，速度达到462t/s；Qwen3.6 35B A3B Q5_K_XL ./llama-server --host 0.0.0.0 --port 8080 --model /models/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf --jinja --threads 8 --ctx-size 262144 --cache-ram 0 --parallel 1 --temperature 0.0 --top-p 0.2 --top-k 20 --no-mmap --spec-type draft-mtp --spec-draft-n-max 3 --batch-size 2700 --ubatch-size 2700 --n-gpu-layers 99 --n-cpu-moe 99。唯一的缺点是目前仅支持F16 KV，但贡献者表示后续会处理其他量化方式。你看，Intel的硬件非常强大，能够做很棒的事情，社区和Intel的每一次贡献都让我们更接近充分发挥硬件的全部速度。

查看原文

提示：使用这个llama.cpp的PR提升Intel ARC上的提示处理速度

相似文章

Intel Arc Pro B70 llama.cpp 基准测试结果公布

SYCL: 从 CUDA 后端移植多列 MMVQ（在 Intel Arc 上获得约 45% 的推测解码加速）by masonmilby · Pull Request #21845 · ggml-org/llama.cpp

双GPU llama.cpp加速

Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tok/s 提示处理与 26.2万上下文窗口

Strix Halo 用户：一个被拒绝的 PR 可使 MOE 的 PP 速度提升高达 30%。

提交意见反馈