任务与Token的成本幻觉:Opus 4.7与K2.6对比 💭
摘要
Kimi K2.6与Claude Opus 4.7的每Token成本与每任务成本对比,显示尽管每Token更便宜,但Kimi消耗更多Token,因此每任务节省的费用不那么显著。
Kimi K2.6每Token比Claude Opus 4.7便宜6倍。但每任务呢?仅便宜39%。Kimi K2.6每任务0.76美元,Claude Opus 4.7每任务1.24美元。Kimi完成一个任务消耗太多Token,以至于6倍的价格优势在基准测试中几乎消失。更便宜的每Token并不等同于更便宜的使用,除非是针对特定任务。该模型需要2倍的Token和7倍的时间才能完成,节省的费用可能没那么大。同样重要的是要认识到,Kimi K2.6的上下文窗口也明显小于Opus 4.7,每个模型应该有不同的任务,以便在工作流程中实现最佳成本。比较每任务成本和Token价格是一个有趣的视角,但如果你有几台Mac机器闲置,Kimi是开源的,那么成本根本就不是问题。Kimi仍然是一个出色的模型,每百万Token提供比Opus更多的尝试次数,因此不应完全否定它。
相似文章
Claude Token Counter,现已支持模型对比
Simon Willison 升级了他的 Claude Token Counter 工具,增加了对不同 Claude 模型之间的 token 数量对比功能。升级后的工具发现,Claude Opus 4.7 采用的新分词器相比 Opus 4.6 对相同文本需要多 1.46 倍的 token,这导致成本增加约 40%,尽管两个模型定价相同。
Kimi K2.6 是真正的 Opus 4.7 替代品
经过实测并结合部分客户反馈,这是目前首款让我有底气向客户推荐用于替代 Opus 4.7 的模型。虽然它在单项能力上并未明显超越 Opus 4.7,但能以可接受的质量完成 Opus 约 85% 的任务,同时还配备了视觉理解和强大的浏览器操作能力。我最近一直在逐步将部分个人工作流迁移至 Kimi K2.6,表现令人惊喜,尤其在长周期任务中尤为出色。尽管该模型体积庞大,
测量了执行相同任务的4个代理运行时的令牌消耗。成本从1倍到4倍不等,取决于缓存架构
对四个代理运行时(Claude Code、OpenClaw、Hermes 和 OpenClacky)在相同任务上的令牌消耗进行比较显示,相对于 Claude Code,成本从0.8倍到4倍不等,这由缓存架构和工具模式设计的差异驱动。
@eliebakouch:Kimi K2.6 对比 K2.5、Mythos、Opus 4.7 以及基于 K2.5 的 Cursor Composer 2——我跑遍了能找到的所有基准测试,一句话总结:……
Kimi K2.6 在多项基准测试中较 K2.5 及 Mythos、Opus 4.7 等对手均有显著性能提升。
MineBench上Kimi K2.5与Kimi K2.6的差异
在MineBench的3D Minecraft结构任务中,Kimi K2.6相比K2.5质量提升显著,同时每次运行仅2.35美元,性价比极高。