@nutlope: https://x.com/nutlope/status/2067281915887943890
摘要
一项对比实验表明,Kimi K2.7 Code生成落地页的成本比Claude Fable 5低约94%,且质量相近,尤其是在通过MCP服务器提供设计上下文的情况下。
查看缓存全文
缓存时间: 2026/06/17 20:02
Kimi K2.7 Code 与 Claude Fable 5 对比:着陆页成本降低 94%
我们进行了一项实验,让 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个着陆页进行对比。总体而言,Kimi K2.7 Code 的成本比 Fable 5 低约 94%(便宜 16 倍),并且在给予 Kimi 合适的设计 MCP 上下文后,输出质量与 Fable 5 相当。
我们已将结果发布在 OVSC 网站上,同时展示了 Claude Opus 4.8、Claude Fable 5 和 Kimi K2.7 Code 生成的所有变体。平均而言,Kimi 比 Fable 便宜约 16 倍,比 Opus 便宜约 8 倍。
截图自 https://ovsc.vercel.app/
截图自 https://ovsc.vercel.app/
OVSC 网站可让您浏览所有着陆页,并查看总成本、Token 使用量和生成时间的详细分解。
要了解我们如何开展这项实验,我们首先建立了基准,并观察模型仅凭提示词能生成什么。
提示词
我们从几个不同类别的小型着陆页提示词集开始,包括 B2B SaaS、屋顶隐秘酒吧和用于 SQL 查询的开发者工具。以下是部分示例提示词:
- 为一种将 SQL 查询转化为图表的开发者工具构建着陆页。
- 为一家屋顶隐秘鸡尾酒吧构建着陆页——装饰艺术风格,金箔与祖母绿,1920 年代魅力。
- 为一家 B2B SaaS 初创公司构建着陆页——团队项目管理和协作工具(任务、时间线、团队工作流、集成)。
我们将相同提示词同时提供给 Kimi K2.7 Code 和 Claude Fable 5。
以下是当要求“为一种将 SQL 查询转化为图表的开发者工具构建着陆页”时,这些模型创建的页面。
遗憾的是,两个模型创建的着陆页都带有明显的人工智能生成痕迹。
设计灵感 MCP 服务器
我们搭建了一个自定义 MCP 服务器,提供精心设计的着陆页截图、单独的 UI 元素及其他视觉参考。由于 Kimi K2.7 Code 是多模态模型,我们能够将这些图片连同文本直接包含在提示词中。
这显著改变了结果。Kimi 不再仅凭简短提示词生成布局,而是能够从具体示例中学习,捕捉视觉语言,并将这些模式应用于新页面。实际效果是,页面具有更强的层次结构、更好的排版和更用心的构图。
以下是屋顶隐秘酒吧着陆页的改进前后对比:
有了设计灵感后,Kimi 生成的页面加载更快,避免了破损图片占位符,并使用了更易读的排版。
设计改善后,我们接下来想探索的是成本。
每个着陆页的成本
使用像 Kimi K2.7 Code 这样的开源模型优势之一在于成本。例如,这个 B2B SaaS 着陆页使用 Kimi 仅需 4 美分。同样的提示词使用 Claude Fable 则需 1.09 美元,成本高出近 27 倍。
平均而言,我们使用 Kimi K2.7 Code 生成的着陆页比使用 Claude Fable 5 等专有模型生成的要便宜约 16 倍。
使用生成式编码代理时,您很少只生成一个版本的着陆页。更常见的是,您会生成多个变体,以便探索不同的设计方向、文案和页面元素。然后,您对有希望的版本进行迭代、编辑和完善,通过反复的实验和调整来优化。经过多次来回,价格差异会迅速累积,即使对于像 SaaS 着陆页这样简单的项目也是如此。
如果您使用 Kimi K2.7 Code 生成 100 个页面,相比使用 Claude Fable 5 等专有模型,将节省约 94 美元。
较低的成本是一个明显的优势,但我们还希望有一种比较结果质量的方法。
结果对比
生成着陆页后,我们希望用一种系统性的方法来比较 Kimi 和 Fable。我们不仅关注代码本身,还关注每个页面的整体质量,包括定位、视觉方向、内容结构、工艺、响应性和技术实现。为此,我们给了 GPT-5.5 一个评分标准,让其审阅并评分每个页面的截图和源代码,最终给出 0 到 100 分的分数。
以下是每个着陆页的分数:
在两张示例中,Claude Fable 得分更高,但差距相对较小。Kimi 在设计、结构和整体页面质量上具有竞争力,同时运行成本低得多。对于这种类型的工作流,我们认为这种权衡是合理的。
在两张示例中,Claude Fable 得分更高,但差距相对较小。Kimi 在设计、结构和整体页面质量上具有竞争力,同时运行成本低得多。对于这种类型的工作流,我们认为这种权衡是合理的。
最终思考
像 Kimi K2.7 Code 这样的开源模型已经能够生成有用的着陆页,但我们的实验表明,仅靠提示词只是等式的一部分。如果没有更好的上下文,Kimi 和 Claude Fable 都倾向于生成精致但千篇一律的结果。
最大的改进来自于通过自定义 MCP 服务器为 Kimi 提供视觉灵感。一旦它能够基于截图和设计参考进行创作,页面变得更具可读性、结构化和视觉意图。
结合较低的成本,这使得开源模型成为此类工作流的实用选择。如果您能为模型提供更强的输入并以低成本进行迭代,您可以取得令人惊喜的进展。
您可以在 together.ai 上尝试像 Kimi K2.7 Code 这样的开源模型。
相似文章
@PrajwalTomar_: 当大家都在为Claude每月支付200美元时,Kimi悄无声息地成为了中国以外无人关注的AI编程助手…
Kimi的K2.6模型为Claude提供了一个更便宜的选择,在编程基准测试上表现竞争性,拥有开放权重和长会话支持,对独立开发者具有吸引力。
@埃万·卢斯拉:Kimi K2 的训练成本仅为 460 万美元。据报道,GPT-5 耗资数亿美元。Kimi 在编程方面依然击败了它。上周…
Kimi K2 以 460 万美元的训练成本,在编程基准测试中击败了 GPT-5 和 Claude Opus 4.7,其创始人还提供了详细的技术解析。
@hhmy27: 分享下 Kimi k2.6 的编程体验 这次主打审美能力升级,我直接 vibe 了一下Interface Craft 这个页面动效,效果还不错的 我看了下代码,主要是它会用 Framer 和 GASP 这些技术,所以页面效果看起来还蛮有质…
Kimi k2.6 improves aesthetic coding skills, generating polished Interface Craft page animations using Framer and GSAP.
@CodeByPoonam:Claude Opus 4.7 对比 Kimi K2.6,完全不在一个档次。三个月前没人相信开源能击败 Claude,而今天它做到了…
该推文声称开源模型 Kimi K2.6 已超越 Claude Opus 4.7,标志着开源 AI 在短短三个月内取得重大突破。文中附上了完整指南与提示词的链接,以便验证对比结果。
Kimi K2.7 Code 务实胜过炫技
Kimi 发布了 K2.7 Code,这是一款专注于编程的 AI 模型,其基准测试成绩提升,且思考令牌使用量降低 30%。它更强调在长代码循环和智能体工具集成中的实际性能,而非炫目的分数。