Nvidia RTX 3090 与 Intel Arc Pro B70 llama.cpp 基准对比

Reddit r/LocalLLaMA 工具

摘要

社区实测显示,在 llama.cpp 下 Intel Arc Pro B70 的提示词处理平均慢约 71%,Token 生成平均慢约 54%;同一张卡 SYCL 后端有时比 Vulkan 更快。

***仅分享我在自己机器上折腾 B70 的结果……*** 以下数据在同一台机器上对比了三种 `llama.cpp` 执行路径: * **RTX 3090 (Vulkan)**,NixOS 宿主机,使用主仓库 llama.cpp(2026-04-21 编译) * **Arc Pro B70 (Vulkan)**,NixOS 宿主机,使用主仓库 llama.cpp(2026-04-21 编译) * **Arc Pro B70 (SYCL)**,Ubuntu 24.04 Docker 容器内,使用 `aicss-genai/llama.cpp` 分支的 SYCL 专用 `llama-bench` 构建 # 提示词处理(pp512) |模型|RTX 3090 (Vulkan)|Arc Pro B70 (Vulkan)|Arc Pro B70 (SYCL)|B70 最佳 vs 3090|B70 SYCL vs B70 Vulkan| |:-|:-|:-|:-|:-|:-| |TheBloke/Llama-2-7B-GGUF:Q4\_K\_M|4550.27 ± 10.90|1236.65 ± 3.19|1178.54 ± 5.74|\-72.8%|\-4.7%| |unsloth/gemma-4-E2B-it-GGUF:Q4\_K\_XL|9359.15 ± 168.11|2302.80 ± 5.26|3462.19 ± 36.07|\-63.0%|\+50.3%| |unsloth/gemma-4-26B-A4B-it-GGUF:Q4\_K\_M|3902.28 ± 21.37|1126.28 ± 6.17|945.89 ± 17.53|\-71.1%|\-16.0%| |unsloth/gemma-4-31B-it-GGUF:Q4\_K\_XL|991.47 ± 1.73|295.66 ± 0.60|268.50 ± 0.65|\-70.2%|\-9.2%| |ggml-org/Qwen2.5-Coder-7B-Q8\_0-GGUF:Q8\_0|4740.04 ± 13.78|1176.34 ± 1.68|1192.99 ± 5.75|\-74.8%|\+1.4%| |ggml-org/Qwen3-Coder-30B-A3B-Instruct-Q8\_0-GGUF:Q8\_0|oom|990.32 ± 5.34|552.37 ± 5.76|∞|\-44.2%| |Qwen/Qwen3-8B-GGUF:Q8\_0|4195.89 ± 41.31|1048.39 ± 2.66|1098.90 ± 1.02|\-73.8%|\+4.8%| |unsloth/Qwen3.5-4B-GGUF:Q4\_K\_XL|5233.55 ± 8.29|1430.72 ± 9.68|1767.21 ± 21.27|\-66.2%|\+23.5%| |unsloth/Qwen3.5-35B-A3B-GGUF:Q4\_K\_M|3357.03 ± 18.47|886.39 ± 6.14|445.56 ± 7.46|\-73.6%|\-49.7%| |unsloth/Qwen3.6-35B-A3B-GGUF:Q4\_K\_M|3417.76 ± 17.84|878.15 ± 5.32|442.01 ± 6.51|\-74.3%|\-49.7%| |**平均(不含 oom)**||||**-71.1%**|| # Token 生成(tg128) |模型|RTX 3090 (Vulkan)|Arc Pro B70 (Vulkan)|Arc Pro B70 (SYCL)|B70 最佳 vs 3090|B70 SYCL vs B70 Vulkan| |:-|:-|:-|:-|:-|:-| |TheBloke/Llama-2-7B-GGUF:Q4\_K\_M|137.92 ± 0.41|58.61 ± 0.09|92.39 ± 0.30|\-33.0%|\+57.6%| |unsloth/gemma-4-E2B-it-GGUF:Q4\_K\_XL|207.21 ± 2.00|89.33 ± 0.60|70.65 ± 0.84|\-56.9%|\-20.9%| |unsloth/gemma-4-26B-A4B-it-GGUF:Q4\_K\_M|131.33 ± 0.14|42.00 ± 0.01|37.75 ± 0.32|\-68.0%|\-10.1%| |unsloth/gemma-4-31B-it-GGUF:Q4\_K\_XL|31.49 ± 0.05|14.49 ± 0.04|18.30 ± 0.05|\-41.9%|\+26.3%| |ggml-org/Qwen2.5-Coder-7B-Q8\_0-GGUF:Q8\_0|98.96 ± 0.56|21.30 ± 0.03|55.37 ± 0.02|\-44.1%|\+160.0%| |ggml-org/Qwen3-Coder-30B-A3B-Instruct-Q8\_0-GGUF:Q8\_0|oom|37.69 ± 0.03|28.58 ± 0.09|∞|\-24.2%| |Qwen/Qwen3-8B-GGUF:Q8\_0|92.29 ± 0.17|19.78 ± 0.01|50.74 ± 0.02|\-45.0%|\+156.5%| |unsloth/Qwen3.5-4B-GGUF:Q4\_K\_XL|162.58 ± 0.76|60.45 ± 0.06|79.09 ± 0.05|\-51.4%|\+30.8%| |unsloth/Qwen3.5-35B-A3B-GGUF:Q4\_K\_M|148.01 ± 0.38|43.30 ± 0.05|37.93 ± 0.89|\-70.7%|\-12.4%| |unsloth/Qwen3.6-35B-A3B-GGUF:Q4\_K\_M|148.64 ± 0.53|43.46 ± 0.02|36.87 ± 0.42|\-70.8%|\-15.2%| |**平均(不含 oom)**||||**-53.5%**|| # 使用命令 ## 宿主机 Vulkan 测试 对每个模型,宿主机端运行: llama-bench -hf <MODEL> -dev Vulkan0 llama-bench -hf <MODEL> -dev Vulkan2 其中: * `Vulkan0` = **RTX 3090** * `Vulkan2` = **Arc Pro B70** ## 容器 SYCL 测试 对每个模型,在 Docker 容器内运行: ./build/bin/llama-bench -hf <MODEL> -dev SYCL0 其中: * `SYCL0` = **Arc Pro B70** # 测试机配置 * **CPU**:AMD Ryzen Threadripper 2970WX 24 核处理器 * 24 核 / 48 线程 * 1 颗 * 2.2 GHz 最低 / 3.0 GHz 最高 * **内存**:128 GiB 总计 * **GPU**: * NVIDIA GeForce RTX 3090,24 GiB * NVIDIA GeForce RTX 3090,24 GiB * Intel Arc Pro B70,32 GiB
查看原文

相似文章

[基准测试] 5090RTX:提示解析、Token 生成与功耗等级

Reddit r/LocalLLaMA

一位用户使用 llama.cpp 对 Nvidia 5090 RTX GPU 进行 LLM 推理基准测试,测量了不同功耗水平下的提示处理和 token 生成情况,发现提示处理对功耗限制更为敏感,而 token 生成相对不敏感,并指出了与 4090 RTX 的差异。

RTX Pro 4500 Blackwell 性能实测

Reddit r/LocalLLaMA

一位用户分享了将 Nvidia RTX Pro 4500 Blackwell 32GB GPU 与 RTX 5060 Ti 16GB 进行 AI 推理性能对比的基准测试结果,显示根据模型大小和量化水平,速度提升了 1.6 到 6 倍。