A100上Qwen3.6-27B-FP8运行缓慢

Reddit r/LocalLLaMA 2026/06/21 18:37 模型

摘要

Qwen3.6-27B-FP8模型在A100 GPU上运行时性能较慢

暂无内容

查看原文

相似文章

@ngxson: Qwen3.6-27B 在 WebGPU 上 100% 运行。速度不是最快，但仍然不错

X AI KOLs Following

一位开发者演示在浏览器中完全通过 WebGPU 运行 Qwen3.6-27B AI 模型，尽管速度并非最优。

@cniongolo: 我不确定大家是否已经意识到，你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…

X AI KOLs Following

演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上，使用 Hugging Face Inference 运行自定义 Qwen 模型（Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF），达到每秒约 195 个 token 的处理速度。

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

Reddit r/LocalLLaMA

作者分享了一种高性能的本地推理配置，使用支持 TurboQuant 的修改版 llama.cpp，在硬件受限（8GB 显存、32GB 内存）的情况下运行 Qwen3.6 35B A3B，实现了 ~37-51 tok/sec 的生成速度，并支持 ~190k 上下文。

Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tok/s 提示处理与 26.2万上下文窗口

Reddit r/LocalLLaMA

本文介绍如何使用 llama.cpp 的 SYCL 后端，在 Intel Arc Pro B70 GPU 上使整个模型和 KV 缓存位于显存中，从而实现 Qwen 3.6-35B-A3B 模型每秒超过 60 个 token 的处理速度。

试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode，真不敢相信居然能用

Reddit r/LocalLLaMA

用户报告称，在 RTX 5090 本地运行 Qwen3-27B-UD-Q6_K_XL.gguf，200K 上下文速度约 50 tok/s，编码表现出乎意料地可用，标志着本地模型质量大幅跃升。

相似文章

@ngxson: Qwen3.6-27B 在 WebGPU 上 100% 运行。速度不是最快，但仍然不错

@cniongolo: 我不确定大家是否已经意识到，你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

Qwen 3.6-35B-A3B 在 Intel Arc B70 Pro 上实现 977 tok/s 提示处理与 26.2万上下文窗口

试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode，真不敢相信居然能用

提交意见反馈