Intel Arc Pro B70 llama.cpp 基准测试结果公布

Reddit r/LocalLLaMA 2026/06/02 06:28 新闻

intel arc-pro-b70 llama-cpp sycl benchmarks qwen hardware

摘要

Intel Arc Pro B70 GPU 在 Qwen 模型上通过 SYCL 运行 llama.cpp 的基准测试结果显示每秒 63 个 token 的性能。

[https://www.reddit.com/r/LocalLLM/comments/1tuf6l1/intel\\_arc\\_pro\\_b70\\_llamacpp\\_sycl\\_63\\_ts\\_on\\_qwen/](https://www.reddit.com/r/LocalLLM/comments/1tuf6l1/intel_arc_pro_b70_llamacpp_sycl_63_ts_on_qwen/)

查看原文

相似文章

Nvidia RTX 3090 与 Intel Arc Pro B70 llama.cpp 基准对比

Reddit r/LocalLLaMA

社区实测显示，在 llama.cpp 下 Intel Arc Pro B70 的提示词处理平均慢约 71%，Token 生成平均慢约 54%；同一张卡 SYCL 后端有时比 Vulkan 更快。

Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tok/s 提示处理与 26.2万上下文窗口

Reddit r/LocalLLaMA

本文介绍如何使用 llama.cpp 的 SYCL 后端，在 Intel Arc Pro B70 GPU 上使整个模型和 KV 缓存位于显存中，从而实现 Qwen 3.6-35B-A3B 模型每秒超过 60 个 token 的处理速度。

提示：使用这个llama.cpp的PR提升Intel ARC上的提示处理速度

Reddit r/LocalLLaMA

一个llama.cpp的PR显著提升了Intel ARC GPU上的提示处理速度，基准测试显示在B580上从245t/s提升到462t/s。目前该改进仅适用于F16 KV量化，计划后续支持其他量化方式。

@TeksEdge: 已解决！Qwen3.6-27B-FP8 现已在 Intel Arc Pro B70 上运行！LocalMaxxing 展示了 4× Arc Pro B70 32GB 的有效运行，速度约 5…

X AI KOLs Following

Qwen3.6-27B-FP8 模型现已在 Intel Arc Pro B70 GPU 上运行，速度约 50 tok/s，并修复了 vLLM 的一个 bug，这标志着 Intel GPU 本地 AI 推理的一个重要里程碑。

Intel LLM-Scaler vllm-0.14.0-b8.2 发布，正式支持 Arc Pro B70

Reddit r/artificial

Intel LLM-Scaler vllm-0.14.0-b8.2 新增对 Arc Pro B70 GPU 的官方支持，可在 Battlemage 硬件上基于 Docker 运行大模型推理。

相似文章

Nvidia RTX 3090 与 Intel Arc Pro B70 llama.cpp 基准对比

Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tok/s 提示处理与 26.2万上下文窗口

提示：使用这个llama.cpp的PR提升Intel ARC上的提示处理速度

@TeksEdge: 已解决！Qwen3.6-27B-FP8 现已在 Intel Arc Pro B70 上运行！LocalMaxxing 展示了 4× Arc Pro B70 32GB 的有效运行，速度约 5…

Intel LLM-Scaler vllm-0.14.0-b8.2 发布，正式支持 Arc Pro B70

提交意见反馈