@ProTekkFZS：在 3090 上用 Q4_K_M 3.6 35B、768k 上下文加 YaRN，爽到飞起

X AI KOLs Following 2026/04/20 20:39 新闻

llama-cpp quantization local-inference long-context mixture-of-experts gpu-inference

摘要

用户报告称，通过 llama.cpp 分支，在 RTX 3090 上成功以 Q4_K_M 量化运行 35B 参数 MoE 模型，上下文长达 768K，仅把 8 个专家卸载到 CPU，性能依旧可接受。

Q4_K_M 3.6 35B 在 3090 上跑 768k 上下文加 YaRN，真的太爽了，不骗人。用的是 @no_stp_on_snek 的 llama.cpp 分支，turboquant 加持，只把 8 个专家甩给 CPU，性能依旧在线。10k prompt 回忆稳稳的。

查看缓存全文

缓存时间: 2026/04/21 08:09

Q4_K_M 3.6 35B 在 3090 上用 yarn 跑 768k，爽到飞起，不骗人。用的是 @no_stp_on_snek 的 llama.cpp 分支，开了 turboquant，只把 8 个 expert 扔到 CPU，速度依旧能接受。10k prompt 回忆准确。

相似文章

Reddit r/LocalLLaMA

社区讨论帖，分享在多 GPU 环境下运行 27B Qwen3.6 GGUF 模型、支持 100K-512K 长上下文的 llama.cpp 优化启动命令。

Reddit r/LocalLLaMA

一名用户分享了一份配置方案，该方案在使用 llama.cpp 和多令牌预测（MTP）的情况下，能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上，使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议，并探讨了更大模型的潜在应用场景。

Reddit r/LocalLLaMA

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

Reddit r/LocalLLaMA

作者分享了一套在 8GB RTX 4060 上跑 35B-MoE Qwen3.6 的可用 llama-server 配置，重点提示因内部推理无限制而耗尽 max_tokens 的陷阱，并给出用 per-request thinking_budget_tokens 的解决方案。