arc-gpu

#arc-gpu

Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tok/s 提示处理与 26.2万上下文窗口

Reddit r/LocalLLaMA ↗ · 2026-06-02 缓存

本文介绍如何使用 llama.cpp 的 SYCL 后端，在 Intel Arc Pro B70 GPU 上使整个模型和 KV 缓存位于显存中，从而实现 Qwen 3.6-35B-A3B 模型每秒超过 60 个 token 的处理速度。

0 人收藏 0 人点赞

#arc-gpu

Reddit r/artificial ↗ · 2026-04-22 缓存

Intel LLM-Scaler vllm-0.14.0-b8.2 新增对 Arc Pro B70 GPU 的官方支持，可在 Battlemage 硬件上基于 Docker 运行大模型推理。

0 人收藏 0 人点赞

#arc-gpu

Reddit r/LocalLLaMA ↗ · 2026-04-20

用户寻求有经验人士指导搭建6× Intel Arc B70 LLM推理主机，尤其是针对Llama模型和vLLM部署，愿意提供咨询报酬。

0 人收藏 0 人点赞