model-inference

#model-inference

48GB VRAM + Qwen 3.6 27B 的最佳设置

Reddit r/LocalLLaMA ↗ · 昨天

一位用户分享了在双GPU配置（RTX 4090 + RTX 3090）上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置，在250k上下文下实现了75-100 t/s和1500 pp。

0 人收藏 0 人点赞

#model-inference

给机子加了一张旧2070 Super后，我回不去了……更糟糕的是，我现在需要更多

Reddit r/LocalLLaMA ↗ · 2026-05-31

一位用户分享了将旧款 NVIDIA 2070 Super GPU 添加到机子中以获得额外 VRAM 的经验，使其能够以高量化和上下文大小运行像 Qwen3.6-27B 这样的更大模型，且性能良好，现在正考虑升级到 3090 以获得更多 VRAM。

0 人收藏 0 人点赞

#model-inference

qwen3.6-35b-a3b-mtp 在 GTX 1060 6GB 上运行

Reddit r/LocalLLaMA ↗ · 2026-05-24

一位用户成功在一台使用十年的旧工作站上（配备 GTX 1060 6GB），在 Windows 上使用 LMStudio 运行了 Qwen3.6-35B-a3b-MTP 模型，实现了可接受的聊天速度。

0 人收藏 0 人点赞

#model-inference

Qwen3.6-35B-A3B Q4 262k上下文，8GB 3070 Ti上可达+30tps

Reddit r/LocalLLaMA ↗ · 2026-05-22

作者分享了在8GB RTX 3070 Ti上使用llama.cpp运行Qwen3.6-35B-A3B MoE模型，实现高达262k上下文、30+tps的详细调优技巧，并指出从Windows切换到Ubuntu Server后速度提升了25%。

0 人收藏 0 人点赞

#model-inference

寻找早期用户试用我们的 OpenClaw 模型方案，并告诉我们哪里有问题（15-30 分钟）

Reddit r/openclaw ↗ · 2026-05-20

OpenClaw 正在寻找早期用户测试其开源模型推理方案，该方案按并发槽位销售，具有高吞吐量且无共享池，以换取免费使用和反馈。

0 人收藏 0 人点赞

#model-inference

10 tokens per second 到底有多快？

Simon Willison's Blog ↗ · 2026-05-20 缓存

Simon Willison 探讨了 10 tokens per second 速度对于大型语言模型的实际意义，提供了关于这种速度感觉有多快以及其对可用性的影响的背景信息。

0 人收藏 0 人点赞

#model-inference

@julien_c: 我注意到网上有些困惑，关于如何以最简单的方式运行带MTP（多令牌预测）的llama.cpp……

X AI KOLs Following ↗ · 2026-05-19 缓存

Julien C 解释了如何运行带有MTP（多令牌预测）的llama.cpp，以实现约2倍的生成速度，可以使用Dense 27B或MoE 35B模型，并提供了安装和配置说明。

0 人收藏 0 人点赞

#model-inference

既然MTP已合并……你在2x3090上运行Qwen 3.6 35B的最佳输出是什么？

Reddit r/LocalLLaMA ↗ · 2026-05-16

讨论在llama.cpp中使用新MTP合并功能在双3090上运行Qwen 3.6 35B时的性能权衡，用户分享token速度并寻求最佳配置。

0 人收藏 0 人点赞

#model-inference

除了权重，GGUF 还包含什么？——以及仍缺少什么？

Hacker News Top ↗ · 2026-05-14 缓存

本文探讨了 llama.cpp 用于语言模型的 GGUF 文件格式，重点介绍了其单文件便利性以及嵌入的聊天模板和特殊令牌的作用。还比较了不同的 Jinja 实现，并讨论了该格式仍缺少哪些内容。

0 人收藏 0 人点赞

#model-inference

@jun_song: 如果我们能弄清楚如何将 MoE 模型中仅激活的参数加载到 GPU 中，而不是加载全部权重，那将是颠覆性的……

X AI KOLs Following ↗ · 2026-05-10

作者推测，如果仅将 MoE 模型的激活参数加载到 GPU 上，将能极大提高运行效率，并允许在本地运行 Kimi 这样的大型模型，尽管作者承认目前这尚不切实际。

0 人收藏 0 人点赞

#model-inference

@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型，通过使用小众 Zig 语言实现并优化模型推理，证明了新模型的泛化能力。经过 4,000 多次工具调用，超过 12 小时的不间断运行，K2.6 模型共迭代了 14 …

X AI KOLs Timeline ↗ · 2026-04-21 缓存

K2.6在Mac本地成功部署Qwen3.5-0.8B模型，使用Zig语言实现推理优化，经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s，比LM Studio快20%。

0 人收藏 0 人点赞

model-inference

提交意见反馈