@KKaWSB: Moonshot刚刚开源了Kimi K2.6——单次会话跑4000次工具调用连续12小时，300个子代理并行搭完整代码库。 SWE-Bench Pro、BrowseComp、HLE等多项基准SOTA，打平Claude Opus 4.6和G…

X AI KOLs Timeline 2026/04/20 23:44 模型

moonshot kimi-k2-6 open-source ai-agents tool-calling benchmarks sota

摘要

Moonshot开源发布了Kimi K2.6模型，支持单次会话4000次工具调用与300个子代理并行，在SWE-Bench Pro等多项基准上取得SOTA，并声称性能打平Claude Opus 4.6和GPT-5.4。

Moonshot刚刚开源了Kimi K2.6——单次会话跑4000次工具调用连续12小时，300个子代理并行搭完整代码库。 SWE-Bench Pro、BrowseComp、HLE等多项基准SOTA，打平Claude Opus 4.6和GPT-5.4。开源模型能力已经追上闭源顶配——以前你觉得它不够好只是因为你没用过最新的。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 08:27

相似文章

@akshay_pachaar：Kimi K2.6 为开源模型树立了新标杆。Moonshot 昨日发布，首个开放权重模型在关键的智能体基准上硬刚 Claude Opus 4.6

X AI KOLs Following

Moonshot 的开放权重 Kimi K2.6 在核心智能体基准上与 Claude Opus 4.6 打成平手，而成本仅为后者的一小部分。

@heyshrutimishra：OpenClaw 用户狂喜！终于有开源模型在 SWE-Bench 上超越 Opus 4.6——Kimi K2.6，可连续 12+ 小时自主编码，调用 4,000+ 次工具

X AI KOLs Following

开源模型 Kimi K2.6 在 SWE-Bench 上超越 Opus 4.6，支持 12+ 小时自主编码会话，工具调用超 4,000 次。

@QuixiAI：@Kimi_Moonshot K2.6 在我的 mi300x 上跑出了 56 tps（单请求），接下来做吞吐测试

X AI KOLs Following

Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s，用户计划进一步测试整体吞吐。

@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型，通过使用小众 Zig 语言实现并优化模型推理，证明了新模型的泛化能力。经过 4,000 多次工具调用，超过 12 小时的不间断运行，K2.6 模型共迭代了 14 …

X AI KOLs Timeline

K2.6在Mac本地成功部署Qwen3.5-0.8B模型，使用Zig语言实现推理优化，经过14轮迭代将吞吐量从约15 tokens/s提升至约193 tokens/s，比LM Studio快20%。

Kimi K2.6 是真正的 Opus 4.7 替代品

Reddit r/LocalLLaMA

经过实测并结合部分客户反馈，这是目前首款让我有底气向客户推荐用于替代 Opus 4.7 的模型。虽然它在单项能力上并未明显超越 Opus 4.7，但能以可接受的质量完成 Opus 约 85% 的任务，同时还配备了视觉理解和强大的浏览器操作能力。我最近一直在逐步将部分个人工作流迁移至 Kimi K2.6，表现令人惊喜，尤其在长周期任务中尤为出色。尽管该模型体积庞大，

相似文章

@akshay_pachaar：Kimi K2.6 为开源模型树立了新标杆。Moonshot 昨日发布，首个开放权重模型在关键的智能体基准上硬刚 Claude Opus 4.6

@heyshrutimishra：OpenClaw 用户狂喜！终于有开源模型在 SWE-Bench 上超越 Opus 4.6——Kimi K2.6，可连续 12+ 小时自主编码，调用 4,000+ 次工具

@QuixiAI：@Kimi_Moonshot K2.6 在我的 mi300x 上跑出了 56 tps（单请求），接下来做吞吐测试

@sanbuphy: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型，通过使用小众 Zig 语言实现并优化模型推理，证明了新模型的泛化能力。经过 4,000 多次工具调用，超过 12 小时的不间断运行，K2.6 模型共迭代了 14 …

Kimi K2.6 是真正的 Opus 4.7 替代品

提交意见反馈