Intel Arc Pro B70 llama.cpp 基准测试结果公布
摘要
Intel Arc Pro B70 GPU 在 Qwen 模型上通过 SYCL 运行 llama.cpp 的基准测试结果显示每秒 63 个 token 的性能。
[https://www.reddit.com/r/LocalLLM/comments/1tuf6l1/intel\\_arc\\_pro\\_b70\\_llamacpp\\_sycl\\_63\\_ts\\_on\\_qwen/](https://www.reddit.com/r/LocalLLM/comments/1tuf6l1/intel_arc_pro_b70_llamacpp_sycl_63_ts_on_qwen/)
相似文章
Nvidia RTX 3090 与 Intel Arc Pro B70 llama.cpp 基准对比
社区实测显示,在 llama.cpp 下 Intel Arc Pro B70 的提示词处理平均慢约 71%,Token 生成平均慢约 54%;同一张卡 SYCL 后端有时比 Vulkan 更快。
Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tok/s 提示处理与 26.2万上下文窗口
本文介绍如何使用 llama.cpp 的 SYCL 后端,在 Intel Arc Pro B70 GPU 上使整个模型和 KV 缓存位于显存中,从而实现 Qwen 3.6-35B-A3B 模型每秒超过 60 个 token 的处理速度。
@TeksEdge: 已解决!Qwen3.6-27B-FP8 现已在 Intel Arc Pro B70 上运行!LocalMaxxing 展示了 4× Arc Pro B70 32GB 的有效运行,速度约 5…
Qwen3.6-27B-FP8 模型现已在 Intel Arc Pro B70 GPU 上运行,速度约 50 tok/s,并修复了 vLLM 的一个 bug,这标志着 Intel GPU 本地 AI 推理的一个重要里程碑。
Intel LLM-Scaler vllm-0.14.0-b8.2 发布,正式支持 Arc Pro B70
Intel LLM-Scaler vllm-0.14.0-b8.2 新增对 Arc Pro B70 GPU 的官方支持,可在 Battlemage 硬件上基于 Docker 运行大模型推理。
PSA:测试你在 llama.cpp 中的“线程”参数(我的情况提升了 80% 的性能)
一位用户使用 Gemma 4 在 llama.cpp 中针对混合 CPU-GPU 推理进行了线程数基准测试,发现在混合核心 CPU 上使用 16 个线程而非 6 个可提升 80% 的性能,并分享了最佳命令配置。