标签
一位用户分享了在双GPU配置(RTX 4090 + RTX 3090)上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置,在250k上下文下实现了75-100 t/s和1500 pp。
一位用户分享了将旧款 NVIDIA 2070 Super GPU 添加到机子中以获得额外 VRAM 的经验,使其能够以高量化和上下文大小运行像 Qwen3.6-27B 这样的更大模型,且性能良好,现在正考虑升级到 3090 以获得更多 VRAM。
一位用户成功在一台使用十年的旧工作站上(配备 GTX 1060 6GB),在 Windows 上使用 LMStudio 运行了 Qwen3.6-35B-a3b-MTP 模型,实现了可接受的聊天速度。
作者分享了在8GB RTX 3070 Ti上使用llama.cpp运行Qwen3.6-35B-A3B MoE模型,实现高达262k上下文、30+tps的详细调优技巧,并指出从Windows切换到Ubuntu Server后速度提升了25%。
OpenClaw 正在寻找早期用户测试其开源模型推理方案,该方案按并发槽位销售,具有高吞吐量且无共享池,以换取免费使用和反馈。
Simon Willison 探讨了 10 tokens per second 速度对于大型语言模型的实际意义,提供了关于这种速度感觉有多快以及其对可用性的影响的背景信息。
Julien C 解释了如何运行带有MTP(多令牌预测)的llama.cpp,以实现约2倍的生成速度,可以使用Dense 27B或MoE 35B模型,并提供了安装和配置说明。
讨论在llama.cpp中使用新MTP合并功能在双3090上运行Qwen 3.6 35B时的性能权衡,用户分享token速度并寻求最佳配置。
本文探讨了 llama.cpp 用于语言模型的 GGUF 文件格式,重点介绍了其单文件便利性以及嵌入的聊天模板和特殊令牌的作用。还比较了不同的 Jinja 实现,并讨论了该格式仍缺少哪些内容。
作者推测,如果仅将 MoE 模型的激活参数加载到 GPU 上,将能极大提高运行效率,并允许在本地运行 Kimi 这样的大型模型,尽管作者承认目前这尚不切实际。
K2.6在Mac本地成功部署Qwen3.5-0.8B模型,使用Zig语言实现推理优化,经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s,比LM Studio快20%。