Nvidia RTX 3090 与 Intel Arc Pro B70 llama.cpp 基准对比

Reddit r/LocalLLaMA 2026/04/23 02:59 工具

llama-cpp gpu-benchmarks intel-arc nvidia-rtx vulkan sycl

摘要

社区实测显示，在 llama.cpp 下 Intel Arc Pro B70 的提示词处理平均慢约 71%，Token 生成平均慢约 54%；同一张卡 SYCL 后端有时比 Vulkan 更快。

***仅分享我在自己机器上折腾 B70 的结果……*** 以下数据在同一台机器上对比了三种 `llama.cpp` 执行路径： * **RTX 3090 (Vulkan)**，NixOS 宿主机，使用主仓库 llama.cpp（2026-04-21 编译） * **Arc Pro B70 (Vulkan)**，NixOS 宿主机，使用主仓库 llama.cpp（2026-04-21 编译） * **Arc Pro B70 (SYCL)**，Ubuntu 24.04 Docker 容器内，使用 `aicss-genai/llama.cpp` 分支的 SYCL 专用 `llama-bench` 构建 # 提示词处理（pp512） |模型|RTX 3090 (Vulkan)|Arc Pro B70 (Vulkan)|Arc Pro B70 (SYCL)|B70 最佳 vs 3090|B70 SYCL vs B70 Vulkan| |:-|:-|:-|:-|:-|:-| |TheBloke/Llama-2-7B-GGUF:Q4\_K\_M|4550.27 ± 10.90|1236.65 ± 3.19|1178.54 ± 5.74|\-72.8%|\-4.7%| |unsloth/gemma-4-E2B-it-GGUF:Q4\_K\_XL|9359.15 ± 168.11|2302.80 ± 5.26|3462.19 ± 36.07|\-63.0%|\+50.3%| |unsloth/gemma-4-26B-A4B-it-GGUF:Q4\_K\_M|3902.28 ± 21.37|1126.28 ± 6.17|945.89 ± 17.53|\-71.1%|\-16.0%| |unsloth/gemma-4-31B-it-GGUF:Q4\_K\_XL|991.47 ± 1.73|295.66 ± 0.60|268.50 ± 0.65|\-70.2%|\-9.2%| |ggml-org/Qwen2.5-Coder-7B-Q8\_0-GGUF:Q8\_0|4740.04 ± 13.78|1176.34 ± 1.68|1192.99 ± 5.75|\-74.8%|\+1.4%| |ggml-org/Qwen3-Coder-30B-A3B-Instruct-Q8\_0-GGUF:Q8\_0|oom|990.32 ± 5.34|552.37 ± 5.76|∞|\-44.2%| |Qwen/Qwen3-8B-GGUF:Q8\_0|4195.89 ± 41.31|1048.39 ± 2.66|1098.90 ± 1.02|\-73.8%|\+4.8%| |unsloth/Qwen3.5-4B-GGUF:Q4\_K\_XL|5233.55 ± 8.29|1430.72 ± 9.68|1767.21 ± 21.27|\-66.2%|\+23.5%| |unsloth/Qwen3.5-35B-A3B-GGUF:Q4\_K\_M|3357.03 ± 18.47|886.39 ± 6.14|445.56 ± 7.46|\-73.6%|\-49.7%| |unsloth/Qwen3.6-35B-A3B-GGUF:Q4\_K\_M|3417.76 ± 17.84|878.15 ± 5.32|442.01 ± 6.51|\-74.3%|\-49.7%| |**平均（不含 oom）**||||**-71.1%**|| # Token 生成（tg128） |模型|RTX 3090 (Vulkan)|Arc Pro B70 (Vulkan)|Arc Pro B70 (SYCL)|B70 最佳 vs 3090|B70 SYCL vs B70 Vulkan| |:-|:-|:-|:-|:-|:-| |TheBloke/Llama-2-7B-GGUF:Q4\_K\_M|137.92 ± 0.41|58.61 ± 0.09|92.39 ± 0.30|\-33.0%|\+57.6%| |unsloth/gemma-4-E2B-it-GGUF:Q4\_K\_XL|207.21 ± 2.00|89.33 ± 0.60|70.65 ± 0.84|\-56.9%|\-20.9%| |unsloth/gemma-4-26B-A4B-it-GGUF:Q4\_K\_M|131.33 ± 0.14|42.00 ± 0.01|37.75 ± 0.32|\-68.0%|\-10.1%| |unsloth/gemma-4-31B-it-GGUF:Q4\_K\_XL|31.49 ± 0.05|14.49 ± 0.04|18.30 ± 0.05|\-41.9%|\+26.3%| |ggml-org/Qwen2.5-Coder-7B-Q8\_0-GGUF:Q8\_0|98.96 ± 0.56|21.30 ± 0.03|55.37 ± 0.02|\-44.1%|\+160.0%| |ggml-org/Qwen3-Coder-30B-A3B-Instruct-Q8\_0-GGUF:Q8\_0|oom|37.69 ± 0.03|28.58 ± 0.09|∞|\-24.2%| |Qwen/Qwen3-8B-GGUF:Q8\_0|92.29 ± 0.17|19.78 ± 0.01|50.74 ± 0.02|\-45.0%|\+156.5%| |unsloth/Qwen3.5-4B-GGUF:Q4\_K\_XL|162.58 ± 0.76|60.45 ± 0.06|79.09 ± 0.05|\-51.4%|\+30.8%| |unsloth/Qwen3.5-35B-A3B-GGUF:Q4\_K\_M|148.01 ± 0.38|43.30 ± 0.05|37.93 ± 0.89|\-70.7%|\-12.4%| |unsloth/Qwen3.6-35B-A3B-GGUF:Q4\_K\_M|148.64 ± 0.53|43.46 ± 0.02|36.87 ± 0.42|\-70.8%|\-15.2%| |**平均（不含 oom）**||||**-53.5%**|| # 使用命令 ## 宿主机 Vulkan 测试对每个模型，宿主机端运行： llama-bench -hf <MODEL> -dev Vulkan0 llama-bench -hf <MODEL> -dev Vulkan2 其中： * `Vulkan0` = **RTX 3090** * `Vulkan2` = **Arc Pro B70** ## 容器 SYCL 测试对每个模型，在 Docker 容器内运行： ./build/bin/llama-bench -hf <MODEL> -dev SYCL0 其中： * `SYCL0` = **Arc Pro B70** # 测试机配置 * **CPU**：AMD Ryzen Threadripper 2970WX 24 核处理器 * 24 核 / 48 线程 * 1 颗 * 2.2 GHz 最低 / 3.0 GHz 最高 * **内存**：128 GiB 总计 * **GPU**： * NVIDIA GeForce RTX 3090，24 GiB * NVIDIA GeForce RTX 3090，24 GiB * Intel Arc Pro B70，32 GiB

查看原文

Nvidia RTX 3090 与 Intel Arc Pro B70 llama.cpp 基准对比

相似文章

Intel Arc Pro B70 llama.cpp 基准测试结果公布

[基准测试] 5090RTX：提示解析、Token 生成与功耗等级

在Strix Halo、RTX 3090和RTX 5070上运行相同模型，只为获得自己的数据

RTX Pro 4500 Blackwell 性能实测

RTX 5090（600/475/400W）与 RTX 6000 PRO MaxQ（325W）以及 RTX 6000 PRO WS/SE（600W）完整算力（Anima）小对比

提交意见反馈