model-inference

标签

Cards List
#model-inference

48GB VRAM + Qwen 3.6 27B 的最佳设置

Reddit r/LocalLLaMA · 昨天

一位用户分享了在双GPU配置(RTX 4090 + RTX 3090)上使用llama.cpp运行Qwen3.6 27B (Q8_0)的优化设置,在250k上下文下实现了75-100 t/s和1500 pp。

0 人收藏 0 人点赞
#model-inference

给机子加了一张旧2070 Super后,我回不去了……更糟糕的是,我现在需要更多

Reddit r/LocalLLaMA · 2026-05-31

一位用户分享了将旧款 NVIDIA 2070 Super GPU 添加到机子中以获得额外 VRAM 的经验,使其能够以高量化和上下文大小运行像 Qwen3.6-27B 这样的更大模型,且性能良好,现在正考虑升级到 3090 以获得更多 VRAM。

0 人收藏 0 人点赞
#model-inference

qwen3.6-35b-a3b-mtp 在 GTX 1060 6GB 上运行

Reddit r/LocalLLaMA · 2026-05-24

一位用户成功在一台使用十年的旧工作站上(配备 GTX 1060 6GB),在 Windows 上使用 LMStudio 运行了 Qwen3.6-35B-a3b-MTP 模型,实现了可接受的聊天速度。

0 人收藏 0 人点赞
#model-inference

Qwen3.6-35B-A3B Q4 262k上下文,8GB 3070 Ti上可达+30tps

Reddit r/LocalLLaMA · 2026-05-22

作者分享了在8GB RTX 3070 Ti上使用llama.cpp运行Qwen3.6-35B-A3B MoE模型,实现高达262k上下文、30+tps的详细调优技巧,并指出从Windows切换到Ubuntu Server后速度提升了25%。

0 人收藏 0 人点赞
#model-inference

寻找早期用户试用我们的 OpenClaw 模型方案,并告诉我们哪里有问题(15-30 分钟)

Reddit r/openclaw · 2026-05-20

OpenClaw 正在寻找早期用户测试其开源模型推理方案,该方案按并发槽位销售,具有高吞吐量且无共享池,以换取免费使用和反馈。

0 人收藏 0 人点赞
#model-inference

10 tokens per second 到底有多快?

Simon Willison's Blog · 2026-05-20 缓存

Simon Willison 探讨了 10 tokens per second 速度对于大型语言模型的实际意义,提供了关于这种速度感觉有多快以及其对可用性的影响的背景信息。

0 人收藏 0 人点赞
#model-inference

@julien_c: 我注意到网上有些困惑,关于如何以最简单的方式运行带MTP(多令牌预测)的llama.cpp……

X AI KOLs Following · 2026-05-19 缓存

Julien C 解释了如何运行带有MTP(多令牌预测)的llama.cpp,以实现约2倍的生成速度,可以使用Dense 27B或MoE 35B模型,并提供了安装和配置说明。

0 人收藏 0 人点赞
#model-inference

既然MTP已合并……你在2x3090上运行Qwen 3.6 35B的最佳输出是什么?

Reddit r/LocalLLaMA · 2026-05-16

讨论在llama.cpp中使用新MTP合并功能在双3090上运行Qwen 3.6 35B时的性能权衡,用户分享token速度并寻求最佳配置。

0 人收藏 0 人点赞
#model-inference

除了权重,GGUF 还包含什么?——以及仍缺少什么?

Hacker News Top · 2026-05-14 缓存

本文探讨了 llama.cpp 用于语言模型的 GGUF 文件格式,重点介绍了其单文件便利性以及嵌入的聊天模板和特殊令牌的作用。还比较了不同的 Jinja 实现,并讨论了该格式仍缺少哪些内容。

0 人收藏 0 人点赞
#model-inference

@jun_song: 如果我们能弄清楚如何将 MoE 模型中仅激活的参数加载到 GPU 中,而不是加载全部权重,那将是颠覆性的……

X AI KOLs Following · 2026-05-10

作者推测,如果仅将 MoE 模型的激活参数加载到 GPU 上,将能极大提高运行效率,并允许在本地运行 Kimi 这样的大型模型,尽管作者承认目前这尚不切实际。

0 人收藏 0 人点赞
#model-inference

@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型,通过使用小众 Zig 语言实现并优化模型推理,证明了新模型的泛化能力。经过 4,000 多次工具调用,超过 12 小时的不间断运行,K2.6 模型共迭代了 14 …

X AI KOLs Timeline · 2026-04-21 缓存

K2.6在Mac本地成功部署Qwen3.5-0.8B模型,使用Zig语言实现推理优化,经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s,比LM Studio快20%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈