提示:使用这个llama.cpp的PR提升Intel ARC上的提示处理速度

Reddit r/LocalLLaMA 工具

摘要

一个llama.cpp的PR显著提升了Intel ARC GPU上的提示处理速度,基准测试显示在B580上从245t/s提升到462t/s。目前该改进仅适用于F16 KV量化,计划后续支持其他量化方式。

https://github.com/ggml-org/llama.cpp/pull/25222 Intel ARC用户的又一次胜利(我们这4个人)。社区持续在改进llama.cpp对Intel ARC的支持。这一次,那个Pull Request中的英雄(在Claude的帮助下)大幅提升了提示处理速度。作为对比,我有一块B580和一个116k上下文的对话,以前从头处理需要510秒,速度245t/s;现在只需262秒,速度达到462t/s;Qwen3.6 35B A3B Q5_K_XL ./llama-server --host 0.0.0.0 --port 8080 --model /models/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf --jinja --threads 8 --ctx-size 262144 --cache-ram 0 --parallel 1 --temperature 0.0 --top-p 0.2 --top-k 20 --no-mmap --spec-type draft-mtp --spec-draft-n-max 3 --batch-size 2700 --ubatch-size 2700 --n-gpu-layers 99 --n-cpu-moe 99。唯一的缺点是目前仅支持F16 KV,但贡献者表示后续会处理其他量化方式。你看,Intel的硬件非常强大,能够做很棒的事情,社区和Intel的每一次贡献都让我们更接近充分发挥硬件的全部速度。
查看原文

相似文章

双GPU llama.cpp加速

Reddit r/LocalLLaMA

llama.cpp的一个分支修复了量化KV缓存中的--split-mode tensor问题,在双GPU配置上实现高达40%的速度提升,且无质量损失。