我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法，但事实并非如此。

Reddit r/ArtificialInteligence 2026/05/12 06:57 新闻

摘要

一项基准研究表明，使用 LLM 分析整个代码库具有成本效益。DeepSeek V4 Flash 因其低成本以及与 Claude Opus 等高端选项相当的准确率，被确定为最佳默认模型。

# 为 AI Copilots 提供更好的上下文 ### 我们使用 LLM 分析您代码库中的每一个文件。 ### 结果是成本降低了 80%，准确率至少提高了 10%。 ### 然而，由于成本原因，这似乎是一个愚蠢的想法。 ### 但是，对于代码分析而言，LLM 远比向量或 AST 解析器优秀得多，只要选对了模型，数学账算得过来。 ### 针对 30 个 Kubernetes 生态系统文件的 14 个模型的基准测试给出了定论。 # 基准测试实际显示的内容我们将 14 个模型通过了 7 个加权类别（搜索、图、语义、集成、章节映射、业务上下文、JSON）下的 30 个文件。在应用了 70 分的加权准确率质量底线后，有两个模型被淘汰：Stepfun Step 3.5 Flash（得分 69.71）和 GPT 5.4（得分 55.65）。其余 12 个模型按摄入 1000 个文件的成本排序，如下所示： | 模型 | $/1k 文件 | 得分 | | :--- | :--- | :--- | | deepseek-v4-flash | $0.75 | 71.13 | | mimo-v2.5 | $1.10 | 71.10 | | minimax-m2.7 | $1.37 | 70.61 | | glm-5.1 | $1.46 | 72.22 | | kimi-latest | $1.61 | 72.29 | | qwen3.6-plus | $2.11 | 71.40 | | deepseek-v4-pro | $3.00 | 71.98 | | qwen3.6-max-preview | $3.25 | 72.28 | | claude-sonnet-4.6 | $8.13 | 73.56 | | grok-4.3 | $13.48 | 72.10 | | claude-opus-4.6 | $39.86 | 73.67 | | claude-opus-4.7 | $41.88 | 73.43 | 仔细观察数据几分钟，结果令人震惊。最便宜的合格模型（DeepSeek V4 Flash，每 1000 个文件 0.75 美元）和最昂贵的模型（Claude Opus 4.7，每 1000 个文件 41.88 美元）之间的**成本相差 56 倍**，但**准确率仅相差 2.3 分**。故事的核心就在这里。 DeepSeek V4 Flash、MiMo V2.5、MiniMax M2.7、GLM 5.1 和 Kimi Latest 均处于 0.75 至 1.61 美元的价格区间，准确率在 70.61 至 72.29 之间。其中任何一个都是大规模摄入的合理默认选择。升级到 Sonnet 4.6，您需要多支付 5 到 10 倍的费用以换取 1 到 2 分的准确率提升，这对于高级套餐来说可能值得，但对于默认摄入来说并不划算。升级到 Opus，您需要多支付 25 到 55 倍的费用，但其准确率在统计上与 Sonnet 没有显著差异，这很难为任何摄入工作负载证明其合理性。 Grok 4.3 是个异类。它每 1000 个文件收费 13.48 美元，价格介于 Sonnet 和 Opus 之间，但得分为 72.10，低于成本仅为十分之一的模型。没有任何工作负载适合使用 Grok。两个被取消资格的模型也值得一提。Stepfun 是整个榜单上最便宜的模型，每 1000 个文件仅 0.56 美元，但以 0.29 分之差错过了 70 分的质量底线。对于非生产性分析或探索性工作，它可能仍然是一个不错的选择。GPT 5.4 每 1000 个文件收费 23.39 美元，得分为 55.65，这意味着它不仅昂贵，而且准确率显著低于所有其他替代方案。值得注意的是，这看起来更像是我们评估配置的问题，而不是模型本身的问题，因为差距大到令人怀疑。数字总结如下： **默认摄入使用 DeepSeek V4 Flash（每 1000 个文件 0.75 美元），平衡层使用 GLM 5.1（1.46 美元），高级层使用 Sonnet 4.6（8.13 美元）。** Opus 不在此列表中，因为其准确率表现无法证明在索引工作中支付 25 到 55 倍的溢价是合理的。

查看原文

我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法，但事实并非如此。

相似文章

18 款 LLM OCR 实测（7k+ 次调用）：便宜/旧模型常吊打旗舰，完整数据集+框架已开源 [R]

开源LLM基准测试每4小时运行147个编码任务，采用5次试验中位数及95%置信区间，并使用CUSUM进行变点检测。好奇大家对这种方法的看法。

如果你只是自己使用模型而不对外提供服务，vLLM 真的值得用吗？

@DeRonin_: DeepSeek 刚发布了一篇5页论文和免费GitHub仓库，能让任何LLM响应速度提升80%，这项技术叫推测性解码...

评估开源大语言模型在自主代号游戏模拟中的表现

提交意见反馈