@KKaWSB: Moonshot刚刚开源了Kimi K2.6——单次会话跑4000次工具调用连续12小时,300个子代理并行搭完整代码库。 SWE-Bench Pro、BrowseComp、HLE等多项基准SOTA,打平Claude Opus 4.6和G…

X AI KOLs Timeline 模型

摘要

Moonshot开源发布了Kimi K2.6模型,支持单次会话4000次工具调用与300个子代理并行,在SWE-Bench Pro等多项基准上取得SOTA,并声称性能打平Claude Opus 4.6和GPT-5.4。

Moonshot刚刚开源了Kimi K2.6——单次会话跑4000次工具调用连续12小时,300个子代理并行搭完整代码库。 SWE-Bench Pro、BrowseComp、HLE等多项基准SOTA,打平Claude Opus 4.6和GPT-5.4。 开源模型能力已经追上闭源顶配——以前你觉得它不够好只是因为你没用过最新的。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 08:27

Moonshot刚刚开源了Kimi K2.6——单次会话跑4000次工具调用连续12小时,300个子代理并行搭完整代码库。 SWE-Bench Pro、BrowseComp、HLE等多项基准SOTA,打平Claude Opus 4.6和GPT-5.4。 开源模型能力已经追上闭源顶配——以前你觉得它不够好只是因为你没用过最新的。

相似文章

Kimi K2.6 是真正的 Opus 4.7 替代品

Reddit r/LocalLLaMA

经过实测并结合部分客户反馈,这是目前首款让我有底气向客户推荐用于替代 Opus 4.7 的模型。虽然它在单项能力上并未明显超越 Opus 4.7,但能以可接受的质量完成 Opus 约 85% 的任务,同时还配备了视觉理解和强大的浏览器操作能力。我最近一直在逐步将部分个人工作流迁移至 Kimi K2.6,表现令人惊喜,尤其在长周期任务中尤为出色。尽管该模型体积庞大,