Intel LLM-Scaler vllm-0.14.0-b8.2 发布,正式支持 Arc Pro B70
摘要
Intel LLM-Scaler vllm-0.14.0-b8.2 新增对 Arc Pro B70 GPU 的官方支持,可在 Battlemage 硬件上基于 Docker 运行大模型推理。
查看缓存全文
缓存时间: 2026/04/22 15:13
Intel LLM-Scaler vllm-0.14.0-b8.2 发布,正式支持 Arc Pro B70
来源:https://www.phoronix.com/news/Intel-LLM-Scaler-vllm-0.14-b8.2
INTEL
作为 Intel LLM-Scaler(https://www.phoronix.com/search/llm-scaler)计划的一部分,该计划旨在在 Intel Arc 硬件上进行 AI 推理,今天发布的 vllm-0.14.0-b8.2 更新正式支持 Arc Pro B70 显卡。
Intel LLM-Scaler 提供 Docker 化部署方案,用于在 Intel Arc 硬件上运行大语言模型,特别聚焦于最新一代 Battlemage 显卡,并支持多 GPU 配置,作为去年启动的 Project Battlematrix(https://www.phoronix.com/search/Project+Battlematrix)计划的一部分。
在今天的 LLM-Scaler 栈 vLLM 更新中,平台镜像已升级至 intel/llm-scaler-platform:26.18.8.2。唯一列出的变化是正式支持 Intel Arc Pro B70 GPU,即 BMG-G31 显卡,该卡近期发布,配备 32GB 显存,售价低于 1000 美元。
Intel Arc Pro B70
Intel Arc Pro B70(https://www.phoronix.com/search/Arc+Pro+B70)在 Phoronix 的测试中表现良好,更多基准测试即将发布。
新版本已在 GitHub 上打标签(https://github.com/intel/llm-scaler/releases/tag/vllm-0.14.0-b8.2),也可通过 Docker Hub 获取。不过,自发布通知发出后,官方已撤下更新亮点和 Arc Pro B70 支持的说明,疑似发布流程出现问题。
相似文章
Intel Arc Pro B70 llama.cpp 基准测试结果公布
Intel Arc Pro B70 GPU 在 Qwen 模型上通过 SYCL 运行 llama.cpp 的基准测试结果显示每秒 63 个 token 的性能。
@TeksEdge: 已解决!Qwen3.6-27B-FP8 现已在 Intel Arc Pro B70 上运行!LocalMaxxing 展示了 4× Arc Pro B70 32GB 的有效运行,速度约 5…
Qwen3.6-27B-FP8 模型现已在 Intel Arc Pro B70 GPU 上运行,速度约 50 tok/s,并修复了 vLLM 的一个 bug,这标志着 Intel GPU 本地 AI 推理的一个重要里程碑。
@tom_doerr: 在单个4GB GPU上运行70B大语言模型 https://github.com/lyogavin/airllm
AirLLM是一个开源工具,优化推理内存使用,无需量化即可在单个4GB GPU上运行70B大语言模型,并支持在8GB显存上运行405B模型。
vllm-project/vllm v0.19.1
vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库,拥有业界领先的吞吐量,支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。
@LottoLabs: 给显卡不够用的兄弟们的一个超酷模型,在一个海量token上训练的8b a1b模型,速度飞快…
LottoLabs 宣布了 LiquidAI 的 LFM2.5-8B-A1B-GGUF 模型,这是一个8B参数的模型,在大量token上训练,并针对有限GPU硬件上的快速推理进行了优化,支持 llama.cpp、Ollama、vLLM 等。