@ProTekkFZS:在 3090 上用 Q4_K_M 3.6 35B、768k 上下文加 YaRN,爽到飞起

X AI KOLs Following 新闻

摘要

用户报告称,通过 llama.cpp 分支,在 RTX 3090 上成功以 Q4_K_M 量化运行 35B 参数 MoE 模型,上下文长达 768K,仅把 8 个专家卸载到 CPU,性能依旧可接受。

Q4_K_M 3.6 35B 在 3090 上跑 768k 上下文加 YaRN,真的太爽了,不骗人。用的是 @no_stp_on_snek 的 llama.cpp 分支,turboquant 加持,只把 8 个专家甩给 CPU,性能依旧在线。10k prompt 回忆稳稳的。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 08:09

Q4_K_M 3.6 35B 在 3090 上用 yarn 跑 768k,爽到飞起,不骗人。用的是 @no_stp_on_snek 的 llama.cpp 分支,开了 turboquant,只把 8 个 expert 扔到 CPU,速度依旧能接受。10k prompt 回忆准确。

相似文章

RTX Pro 4500 Blackwell - Qwen 3.6 27B?

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。