标签
本文介绍如何使用 llama.cpp 的 SYCL 后端,在 Intel Arc Pro B70 GPU 上使整个模型和 KV 缓存位于显存中,从而实现 Qwen 3.6-35B-A3B 模型每秒超过 60 个 token 的处理速度。
Intel LLM-Scaler vllm-0.14.0-b8.2 新增对 Arc Pro B70 GPU 的官方支持,可在 Battlemage 硬件上基于 Docker 运行大模型推理。
用户寻求有经验人士指导搭建6× Intel Arc B70 LLM推理主机,尤其是针对Llama模型和vLLM部署,愿意提供咨询报酬。