Nvidia RTX 3090 与 Intel Arc Pro B70 llama.cpp 基准对比
摘要
社区实测显示,在 llama.cpp 下 Intel Arc Pro B70 的提示词处理平均慢约 71%,Token 生成平均慢约 54%;同一张卡 SYCL 后端有时比 Vulkan 更快。
***仅分享我在自己机器上折腾 B70 的结果……***
以下数据在同一台机器上对比了三种 `llama.cpp` 执行路径:
* **RTX 3090 (Vulkan)**,NixOS 宿主机,使用主仓库 llama.cpp(2026-04-21 编译)
* **Arc Pro B70 (Vulkan)**,NixOS 宿主机,使用主仓库 llama.cpp(2026-04-21 编译)
* **Arc Pro B70 (SYCL)**,Ubuntu 24.04 Docker 容器内,使用 `aicss-genai/llama.cpp` 分支的 SYCL 专用 `llama-bench` 构建
# 提示词处理(pp512)
|模型|RTX 3090 (Vulkan)|Arc Pro B70 (Vulkan)|Arc Pro B70 (SYCL)|B70 最佳 vs 3090|B70 SYCL vs B70 Vulkan|
|:-|:-|:-|:-|:-|:-|
|TheBloke/Llama-2-7B-GGUF:Q4\_K\_M|4550.27 ± 10.90|1236.65 ± 3.19|1178.54 ± 5.74|\-72.8%|\-4.7%|
|unsloth/gemma-4-E2B-it-GGUF:Q4\_K\_XL|9359.15 ± 168.11|2302.80 ± 5.26|3462.19 ± 36.07|\-63.0%|\+50.3%|
|unsloth/gemma-4-26B-A4B-it-GGUF:Q4\_K\_M|3902.28 ± 21.37|1126.28 ± 6.17|945.89 ± 17.53|\-71.1%|\-16.0%|
|unsloth/gemma-4-31B-it-GGUF:Q4\_K\_XL|991.47 ± 1.73|295.66 ± 0.60|268.50 ± 0.65|\-70.2%|\-9.2%|
|ggml-org/Qwen2.5-Coder-7B-Q8\_0-GGUF:Q8\_0|4740.04 ± 13.78|1176.34 ± 1.68|1192.99 ± 5.75|\-74.8%|\+1.4%|
|ggml-org/Qwen3-Coder-30B-A3B-Instruct-Q8\_0-GGUF:Q8\_0|oom|990.32 ± 5.34|552.37 ± 5.76|∞|\-44.2%|
|Qwen/Qwen3-8B-GGUF:Q8\_0|4195.89 ± 41.31|1048.39 ± 2.66|1098.90 ± 1.02|\-73.8%|\+4.8%|
|unsloth/Qwen3.5-4B-GGUF:Q4\_K\_XL|5233.55 ± 8.29|1430.72 ± 9.68|1767.21 ± 21.27|\-66.2%|\+23.5%|
|unsloth/Qwen3.5-35B-A3B-GGUF:Q4\_K\_M|3357.03 ± 18.47|886.39 ± 6.14|445.56 ± 7.46|\-73.6%|\-49.7%|
|unsloth/Qwen3.6-35B-A3B-GGUF:Q4\_K\_M|3417.76 ± 17.84|878.15 ± 5.32|442.01 ± 6.51|\-74.3%|\-49.7%|
|**平均(不含 oom)**||||**-71.1%**||
# Token 生成(tg128)
|模型|RTX 3090 (Vulkan)|Arc Pro B70 (Vulkan)|Arc Pro B70 (SYCL)|B70 最佳 vs 3090|B70 SYCL vs B70 Vulkan|
|:-|:-|:-|:-|:-|:-|
|TheBloke/Llama-2-7B-GGUF:Q4\_K\_M|137.92 ± 0.41|58.61 ± 0.09|92.39 ± 0.30|\-33.0%|\+57.6%|
|unsloth/gemma-4-E2B-it-GGUF:Q4\_K\_XL|207.21 ± 2.00|89.33 ± 0.60|70.65 ± 0.84|\-56.9%|\-20.9%|
|unsloth/gemma-4-26B-A4B-it-GGUF:Q4\_K\_M|131.33 ± 0.14|42.00 ± 0.01|37.75 ± 0.32|\-68.0%|\-10.1%|
|unsloth/gemma-4-31B-it-GGUF:Q4\_K\_XL|31.49 ± 0.05|14.49 ± 0.04|18.30 ± 0.05|\-41.9%|\+26.3%|
|ggml-org/Qwen2.5-Coder-7B-Q8\_0-GGUF:Q8\_0|98.96 ± 0.56|21.30 ± 0.03|55.37 ± 0.02|\-44.1%|\+160.0%|
|ggml-org/Qwen3-Coder-30B-A3B-Instruct-Q8\_0-GGUF:Q8\_0|oom|37.69 ± 0.03|28.58 ± 0.09|∞|\-24.2%|
|Qwen/Qwen3-8B-GGUF:Q8\_0|92.29 ± 0.17|19.78 ± 0.01|50.74 ± 0.02|\-45.0%|\+156.5%|
|unsloth/Qwen3.5-4B-GGUF:Q4\_K\_XL|162.58 ± 0.76|60.45 ± 0.06|79.09 ± 0.05|\-51.4%|\+30.8%|
|unsloth/Qwen3.5-35B-A3B-GGUF:Q4\_K\_M|148.01 ± 0.38|43.30 ± 0.05|37.93 ± 0.89|\-70.7%|\-12.4%|
|unsloth/Qwen3.6-35B-A3B-GGUF:Q4\_K\_M|148.64 ± 0.53|43.46 ± 0.02|36.87 ± 0.42|\-70.8%|\-15.2%|
|**平均(不含 oom)**||||**-53.5%**||
# 使用命令
## 宿主机 Vulkan 测试
对每个模型,宿主机端运行:
llama-bench -hf <MODEL> -dev Vulkan0
llama-bench -hf <MODEL> -dev Vulkan2
其中:
* `Vulkan0` = **RTX 3090**
* `Vulkan2` = **Arc Pro B70**
## 容器 SYCL 测试
对每个模型,在 Docker 容器内运行:
./build/bin/llama-bench -hf <MODEL> -dev SYCL0
其中:
* `SYCL0` = **Arc Pro B70**
# 测试机配置
* **CPU**:AMD Ryzen Threadripper 2970WX 24 核处理器
* 24 核 / 48 线程
* 1 颗
* 2.2 GHz 最低 / 3.0 GHz 最高
* **内存**:128 GiB 总计
* **GPU**:
* NVIDIA GeForce RTX 3090,24 GiB
* NVIDIA GeForce RTX 3090,24 GiB
* Intel Arc Pro B70,32 GiB
相似文章
Intel Arc Pro B70 llama.cpp 基准测试结果公布
Intel Arc Pro B70 GPU 在 Qwen 模型上通过 SYCL 运行 llama.cpp 的基准测试结果显示每秒 63 个 token 的性能。
[基准测试] 5090RTX:提示解析、Token 生成与功耗等级
一位用户使用 llama.cpp 对 Nvidia 5090 RTX GPU 进行 LLM 推理基准测试,测量了不同功耗水平下的提示处理和 token 生成情况,发现提示处理对功耗限制更为敏感,而 token 生成相对不敏感,并指出了与 4090 RTX 的差异。
在Strix Halo、RTX 3090和RTX 5070上运行相同模型,只为获得自己的数据
作者在Strix Halo、RTX 3090和RTX 5070上使用了多个后端,进行了55次推理基准测试。结果揭示,显存带宽主导解码速度,RTX 5070在小模型上击败RTX 3090,而推理模型因隐藏的推理内容看起来慢约5倍。
RTX Pro 4500 Blackwell 性能实测
一位用户分享了将 Nvidia RTX Pro 4500 Blackwell 32GB GPU 与 RTX 5060 Ti 16GB 进行 AI 推理性能对比的基准测试结果,显示根据模型大小和量化水平,速度提升了 1.6 到 6 倍。
RTX 5090(600/475/400W)与 RTX 6000 PRO MaxQ(325W)以及 RTX 6000 PRO WS/SE(600W)完整算力(Anima)小对比
一位用户对 RTX 5090 和 RTX 6000 PRO 系列 GPU 进行 AI 扩散任务基准测试,比较不同功耗限制下的性能,展示了速度与功耗之间的权衡。