@TeksEdge: 已解决!Qwen3.6-27B-FP8 现已在 Intel Arc Pro B70 上运行!LocalMaxxing 展示了 4× Arc Pro B70 32GB 的有效运行,速度约 5…
摘要
Qwen3.6-27B-FP8 模型现已在 Intel Arc Pro B70 GPU 上运行,速度约 50 tok/s,并修复了 vLLM 的一个 bug,这标志着 Intel GPU 本地 AI 推理的一个重要里程碑。
查看缓存全文
缓存时间: 2026/05/16 07:15
解决!Qwen3.6-27B-FP8 现已成功运行于 Intel Arc Pro B70!
LocalMaxxing 展示了 4× Arc Pro B70 32GB 的实际运行效果,速度约 50 tok/s —— 由 @xyster 解决
这对 Intel GPU 本地 AI 来说意义重大
27B 级别 FP8 推理不再只是“也许将来打了补丁就能行”
现在它已经 经过基准测试 实际运行 真实可用 运行在 Intel Arc Pro B70 上
软件栈虽然还处于早期阶段,但这正是 Arc Pro B70 需要的实证
David Hendrickson (@TeksEdge): 🪲 Intel Pro ARC B70 现已推出针对 Qwen3.5-27B 的新 vLLM 错误修复。有人测试过吗?
✅ 两天前提交的新错误修复(commit b3169b8): → 修复了 Qwen3.5-27B 在 TP=1(H=16, HV=48)时
gdn_conv_fused_seq崩溃的问题 ⚠️ 对于更高 TP(如 TP=4)仍未确认有重大修复
相似文章
Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tok/s 提示处理与 26.2万上下文窗口
本文介绍如何使用 llama.cpp 的 SYCL 后端,在 Intel Arc Pro B70 GPU 上使整个模型和 KV 缓存位于显存中,从而实现 Qwen 3.6-35B-A3B 模型每秒超过 60 个 token 的处理速度。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。
试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode,真不敢相信居然能用
用户报告称,在 RTX 5090 本地运行 Qwen3-27B-UD-Q6_K_XL.gguf,200K 上下文速度约 50 tok/s,编码表现出乎意料地可用,标志着本地模型质量大幅跃升。
@DeepTechTR: Qwen 3.6 27B 在16 GB VRAM下速度极快!Pure Quant技术带来的影响——27B模型流畅运行的时代已来临……
Qwen 3.6 27B 在16 GB VRAM上运行快速,得益于'Pure Quant'技术,通过MTP达到40 tokens/s,并支持64k上下文,使得本地AI能在RTX 4060 Ti等消费级GPU上运行。
@cniongolo: 我不确定大家是否已经意识到,你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…
演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上,使用 Hugging Face Inference 运行自定义 Qwen 模型(Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF),达到每秒约 195 个 token 的处理速度。