@jun_song：正在尝试将 Kimi-K2.6 (1T) 适配到 128GB Mac 上。目标是达到 40tok/s，并尽可能减少质量损失。

X AI KOLs Timeline 2026/05/11 09:39 新闻

local-ai llm-inference mac-hardware kimi model-optimization

摘要

一位开发者正在优化 Kimi-K2.6 (1T) 模型，使其能在 128GB Mac 上高效运行，目标速度为 40 tok/s，同时尽可能降低质量损失。

正在尝试将 Kimi-K2.6 (1T) 适配到 128GB Mac 上。目标是达到 40tok/s，并尽可能减少质量损失。

查看缓存全文

缓存时间: 2026/05/11 12:42

正在尝试将 Kimi-K2.6 (1T) 适配到 128GB Mac 上运行。

目标是达到 40 tok/s 的推理速度，并尽可能降低质量损失。

相似文章

X AI KOLs Following

Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s，用户计划进一步测试整体吞吐。

X AI KOLs Following

Kimi K2.6 搭配 DFlash 推理系统在 8×AMD MI300X 上实现 508 tokens/s，相比 90 tokens/s 基线零质量损失地提升 5.6 倍吞吐。

X AI KOLs Following

Moonshot AI 发布 Kimi 2.6：1 万亿参数 MoE 模型，激活 320 亿，上下文 256K，300 子智能体集群，可推理 4,000 步。

X AI KOLs Timeline

K2.6在Mac本地成功部署Qwen3.5-0.8B模型，使用Zig语言实现推理优化，经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s，比LM Studio快20%。

X AI KOLs Timeline

该工具支持通过从 SSD 流式加载模型权重，在 16GB Mac 上运行 Qwen3.5-35B 等大型语言模型，经优化配置后最高可达 30 tok/s。