@jun_song:正在尝试将 Kimi-K2.6 (1T) 适配到 128GB Mac 上。目标是达到 40tok/s,并尽可能减少质量损失。
摘要
一位开发者正在优化 Kimi-K2.6 (1T) 模型,使其能在 128GB Mac 上高效运行,目标速度为 40 tok/s,同时尽可能降低质量损失。
正在尝试将 Kimi-K2.6 (1T) 适配到 128GB Mac 上。
目标是达到 40tok/s,并尽可能减少质量损失。
查看缓存全文
缓存时间: 2026/05/11 12:42
正在尝试将 Kimi-K2.6 (1T) 适配到 128GB Mac 上运行。
目标是达到 40 tok/s 的推理速度,并尽可能降低质量损失。
相似文章
@QuixiAI:@Kimi_Moonshot K2.6 在我的 mi300x 上跑出了 56 tps(单请求),接下来做吞吐测试
Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s,用户计划进一步测试整体吞吐。
@HotAisle:Kimi K2.6 + DFlash:8×MI300X 上 508 tok/s,自回归基线 90 tok/s 提升至 5.6 倍
Kimi K2.6 搭配 DFlash 推理系统在 8×AMD MI300X 上实现 508 tokens/s,相比 90 tokens/s 基线零质量损失地提升 5.6 倍吞吐。
@AdinaYakup: Kimi 2.6 已上线 @huggingface https://huggingface.co/moonshotai/Kimi-K2.6… 1T MoE / 32B 激活 / 256K 上下文…
Moonshot AI 发布 Kimi 2.6:1 万亿参数 MoE 模型,激活 320 亿,上下文 256K,300 子智能体集群,可推理 4,000 步。
@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型,通过使用小众 Zig 语言实现并优化模型推理,证明了新模型的泛化能力。经过 4,000 多次工具调用,超过 12 小时的不间断运行,K2.6 模型共迭代了 14 …
K2.6在Mac本地成功部署Qwen3.5-0.8B模型,使用Zig语言实现推理优化,经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s,比LM Studio快20%。
@tom_doerr: 在 16GB 内存 Mac 上运行 35B 模型 https://github.com/walter-grace/mac-code…
该工具支持通过从 SSD 流式加载模型权重,在 16GB Mac 上运行 Qwen3.5-35B 等大型语言模型,经优化配置后最高可达 30 tok/s。