@KKaWSB: Moonshot刚刚开源了Kimi K2.6——单次会话跑4000次工具调用连续12小时,300个子代理并行搭完整代码库。 SWE-Bench Pro、BrowseComp、HLE等多项基准SOTA,打平Claude Opus 4.6和G…
摘要
Moonshot开源发布了Kimi K2.6模型,支持单次会话4000次工具调用与300个子代理并行,在SWE-Bench Pro等多项基准上取得SOTA,并声称性能打平Claude Opus 4.6和GPT-5.4。
查看缓存全文
缓存时间: 2026/04/21 08:27
Moonshot刚刚开源了Kimi K2.6——单次会话跑4000次工具调用连续12小时,300个子代理并行搭完整代码库。 SWE-Bench Pro、BrowseComp、HLE等多项基准SOTA,打平Claude Opus 4.6和GPT-5.4。 开源模型能力已经追上闭源顶配——以前你觉得它不够好只是因为你没用过最新的。
相似文章
@akshay_pachaar:Kimi K2.6 为开源模型树立了新标杆。Moonshot 昨日发布,首个开放权重模型在关键的智能体基准上硬刚 Claude Opus 4.6
Moonshot 的开放权重 Kimi K2.6 在核心智能体基准上与 Claude Opus 4.6 打成平手,而成本仅为后者的一小部分。
@heyshrutimishra:OpenClaw 用户狂喜!终于有开源模型在 SWE-Bench 上超越 Opus 4.6——Kimi K2.6,可连续 12+ 小时自主编码,调用 4,000+ 次工具
开源模型 Kimi K2.6 在 SWE-Bench 上超越 Opus 4.6,支持 12+ 小时自主编码会话,工具调用超 4,000 次。
@QuixiAI:@Kimi_Moonshot K2.6 在我的 mi300x 上跑出了 56 tps(单请求),接下来做吞吐测试
Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s,用户计划进一步测试整体吞吐。
@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型,通过使用小众 Zig 语言实现并优化模型推理,证明了新模型的泛化能力。经过 4,000 多次工具调用,超过 12 小时的不间断运行,K2.6 模型共迭代了 14 …
K2.6在Mac本地成功部署Qwen3.5-0.8B模型,使用Zig语言实现推理优化,经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s,比LM Studio快20%。
Kimi K2.6 是真正的 Opus 4.7 替代品
经过实测并结合部分客户反馈,这是目前首款让我有底气向客户推荐用于替代 Opus 4.7 的模型。虽然它在单项能力上并未明显超越 Opus 4.7,但能以可接受的质量完成 Opus 约 85% 的任务,同时还配备了视觉理解和强大的浏览器操作能力。我最近一直在逐步将部分个人工作流迁移至 Kimi K2.6,表现令人惊喜,尤其在长周期任务中尤为出色。尽管该模型体积庞大,