@jun_song:正在尝试将 Kimi-K2.6 (1T) 适配到 128GB Mac 上。目标是达到 40tok/s,并尽可能减少质量损失。
摘要
一位开发者正在优化 Kimi-K2.6 (1T) 模型,使其能在 128GB Mac 上高效运行,目标速度为 40 tok/s,同时尽可能降低质量损失。
正在尝试将 Kimi-K2.6 (1T) 适配到 128GB Mac 上。
目标是达到 40tok/s,并尽可能减少质量损失。
查看缓存全文
缓存时间: 2026/05/11 12:42
正在尝试将 Kimi-K2.6 (1T) 适配到 128GB Mac 上运行。
目标是达到 40 tok/s 的推理速度,并尽可能降低质量损失。
相似文章
@QuixiAI:@Kimi_Moonshot K2.6 在我的 mi300x 上跑出了 56 tps(单请求),接下来做吞吐测试
Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s,用户计划进一步测试整体吞吐。
@HotAisle:Kimi K2.6 + DFlash:8×MI300X 上 508 tok/s,自回归基线 90 tok/s 提升至 5.6 倍
Kimi K2.6 搭配 DFlash 推理系统在 8×AMD MI300X 上实现 508 tokens/s,相比 90 tokens/s 基线零质量损失地提升 5.6 倍吞吐。
Kimi K2.7 Code:1万亿参数MoE,每百万token仅0.95美元,MIT许可证,MCP工具调用性能超越Opus 4.8
Moonshot AI 发布了专注于编程的开放式权重模型 Kimi K2.7 Code,拥有1万亿参数和384个专家,性能在MCP工具调用上超越Opus 4.8,成本仅为十分之一。
@YRSM_Simon: 这是个大新闻! kimi 2.6 是生成级的模型了,在 LLM 能力溢出的年代,速度要成为竞争的胜负手了,芯片领域又要“板块轮动”了吗
Cerebras is now running Kimi K2.6, a trillion-parameter model, in enterprise trials at ~1,000 tokens/s, the fastest frontier model performance ever measured by Artificial Analysis.
@AdinaYakup: Kimi 2.6 已上线 @huggingface https://huggingface.co/moonshotai/Kimi-K2.6… 1T MoE / 32B 激活 / 256K 上下文…
Moonshot AI 发布 Kimi 2.6:1 万亿参数 MoE 模型,激活 320 亿,上下文 256K,300 子智能体集群,可推理 4,000 步。