我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法,但事实并非如此。

Reddit r/ArtificialInteligence 新闻

摘要

一项基准研究表明,使用 LLM 分析整个代码库具有成本效益。DeepSeek V4 Flash 因其低成本以及与 Claude Opus 等高端选项相当的准确率,被确定为最佳默认模型。

# 为 AI Copilots 提供更好的上下文 ### 我们使用 LLM 分析您代码库中的每一个文件。 ### 结果是成本降低了 80%,准确率至少提高了 10%。 ### 然而,由于成本原因,这似乎是一个愚蠢的想法。 ### 但是,对于代码分析而言,LLM 远比向量或 AST 解析器优秀得多,只要选对了模型,数学账算得过来。 ### 针对 30 个 Kubernetes 生态系统文件的 14 个模型的基准测试给出了定论。 # 基准测试实际显示的内容 我们将 14 个模型通过了 7 个加权类别(搜索、图、语义、集成、章节映射、业务上下文、JSON)下的 30 个文件。在应用了 70 分的加权准确率质量底线后,有两个模型被淘汰:Stepfun Step 3.5 Flash(得分 69.71)和 GPT 5.4(得分 55.65)。其余 12 个模型按摄入 1000 个文件的成本排序,如下所示: | 模型 | $/1k 文件 | 得分 | | :--- | :--- | :--- | | deepseek-v4-flash | $0.75 | 71.13 | | mimo-v2.5 | $1.10 | 71.10 | | minimax-m2.7 | $1.37 | 70.61 | | glm-5.1 | $1.46 | 72.22 | | kimi-latest | $1.61 | 72.29 | | qwen3.6-plus | $2.11 | 71.40 | | deepseek-v4-pro | $3.00 | 71.98 | | qwen3.6-max-preview | $3.25 | 72.28 | | claude-sonnet-4.6 | $8.13 | 73.56 | | grok-4.3 | $13.48 | 72.10 | | claude-opus-4.6 | $39.86 | 73.67 | | claude-opus-4.7 | $41.88 | 73.43 | 仔细观察数据几分钟,结果令人震惊。最便宜的合格模型(DeepSeek V4 Flash,每 1000 个文件 0.75 美元)和最昂贵的模型(Claude Opus 4.7,每 1000 个文件 41.88 美元)之间的**成本相差 56 倍**,但**准确率仅相差 2.3 分**。故事的核心就在这里。 DeepSeek V4 Flash、MiMo V2.5、MiniMax M2.7、GLM 5.1 和 Kimi Latest 均处于 0.75 至 1.61 美元的价格区间,准确率在 70.61 至 72.29 之间。其中任何一个都是大规模摄入的合理默认选择。 升级到 Sonnet 4.6,您需要多支付 5 到 10 倍的费用以换取 1 到 2 分的准确率提升,这对于高级套餐来说可能值得,但对于默认摄入来说并不划算。 升级到 Opus,您需要多支付 25 到 55 倍的费用,但其准确率在统计上与 Sonnet 没有显著差异,这很难为任何摄入工作负载证明其合理性。 Grok 4.3 是个异类。它每 1000 个文件收费 13.48 美元,价格介于 Sonnet 和 Opus 之间,但得分为 72.10,低于成本仅为十分之一的模型。没有任何工作负载适合使用 Grok。 两个被取消资格的模型也值得一提。Stepfun 是整个榜单上最便宜的模型,每 1000 个文件仅 0.56 美元,但以 0.29 分之差错过了 70 分的质量底线。对于非生产性分析或探索性工作,它可能仍然是一个不错的选择。GPT 5.4 每 1000 个文件收费 23.39 美元,得分为 55.65,这意味着它不仅昂贵,而且准确率显著低于所有其他替代方案。值得注意的是,这看起来更像是我们评估配置的问题,而不是模型本身的问题,因为差距大到令人怀疑。 数字总结如下: **默认摄入使用 DeepSeek V4 Flash(每 1000 个文件 0.75 美元),平衡层使用 GLM 5.1(1.46 美元),高级层使用 Sonnet 4.6(8.13 美元)。** Opus 不在此列表中,因为其准确率表现无法证明在索引工作中支付 25 到 55 倍的溢价是合理的。
查看原文

相似文章

评估开源大语言模型在自主代号游戏模拟中的表现

Reddit r/AI_Agents

一位开发者构建了一个代号游戏模拟平台,用于评估开源大语言模型在长程协作中的表现。结果显示,DeepSeek v4 Flash 在游戏逻辑对齐方面表现优异,胜出其他模型;而 Qwen 3 Next 和 GPT 5.4 Nano 则在规则约束和视角转换方面存在困难。