我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法,但事实并非如此。
摘要
一项基准研究表明,使用 LLM 分析整个代码库具有成本效益。DeepSeek V4 Flash 因其低成本以及与 Claude Opus 等高端选项相当的准确率,被确定为最佳默认模型。
# 为 AI Copilots 提供更好的上下文
### 我们使用 LLM 分析您代码库中的每一个文件。
### 结果是成本降低了 80%,准确率至少提高了 10%。
### 然而,由于成本原因,这似乎是一个愚蠢的想法。
### 但是,对于代码分析而言,LLM 远比向量或 AST 解析器优秀得多,只要选对了模型,数学账算得过来。
### 针对 30 个 Kubernetes 生态系统文件的 14 个模型的基准测试给出了定论。
# 基准测试实际显示的内容
我们将 14 个模型通过了 7 个加权类别(搜索、图、语义、集成、章节映射、业务上下文、JSON)下的 30 个文件。在应用了 70 分的加权准确率质量底线后,有两个模型被淘汰:Stepfun Step 3.5 Flash(得分 69.71)和 GPT 5.4(得分 55.65)。其余 12 个模型按摄入 1000 个文件的成本排序,如下所示:
| 模型 | $/1k 文件 | 得分 |
| :--- | :--- | :--- |
| deepseek-v4-flash | $0.75 | 71.13 |
| mimo-v2.5 | $1.10 | 71.10 |
| minimax-m2.7 | $1.37 | 70.61 |
| glm-5.1 | $1.46 | 72.22 |
| kimi-latest | $1.61 | 72.29 |
| qwen3.6-plus | $2.11 | 71.40 |
| deepseek-v4-pro | $3.00 | 71.98 |
| qwen3.6-max-preview | $3.25 | 72.28 |
| claude-sonnet-4.6 | $8.13 | 73.56 |
| grok-4.3 | $13.48 | 72.10 |
| claude-opus-4.6 | $39.86 | 73.67 |
| claude-opus-4.7 | $41.88 | 73.43 |
仔细观察数据几分钟,结果令人震惊。最便宜的合格模型(DeepSeek V4 Flash,每 1000 个文件 0.75 美元)和最昂贵的模型(Claude Opus 4.7,每 1000 个文件 41.88 美元)之间的**成本相差 56 倍**,但**准确率仅相差 2.3 分**。故事的核心就在这里。
DeepSeek V4 Flash、MiMo V2.5、MiniMax M2.7、GLM 5.1 和 Kimi Latest 均处于 0.75 至 1.61 美元的价格区间,准确率在 70.61 至 72.29 之间。其中任何一个都是大规模摄入的合理默认选择。
升级到 Sonnet 4.6,您需要多支付 5 到 10 倍的费用以换取 1 到 2 分的准确率提升,这对于高级套餐来说可能值得,但对于默认摄入来说并不划算。
升级到 Opus,您需要多支付 25 到 55 倍的费用,但其准确率在统计上与 Sonnet 没有显著差异,这很难为任何摄入工作负载证明其合理性。
Grok 4.3 是个异类。它每 1000 个文件收费 13.48 美元,价格介于 Sonnet 和 Opus 之间,但得分为 72.10,低于成本仅为十分之一的模型。没有任何工作负载适合使用 Grok。
两个被取消资格的模型也值得一提。Stepfun 是整个榜单上最便宜的模型,每 1000 个文件仅 0.56 美元,但以 0.29 分之差错过了 70 分的质量底线。对于非生产性分析或探索性工作,它可能仍然是一个不错的选择。GPT 5.4 每 1000 个文件收费 23.39 美元,得分为 55.65,这意味着它不仅昂贵,而且准确率显著低于所有其他替代方案。值得注意的是,这看起来更像是我们评估配置的问题,而不是模型本身的问题,因为差距大到令人怀疑。
数字总结如下:
**默认摄入使用 DeepSeek V4 Flash(每 1000 个文件 0.75 美元),平衡层使用 GLM 5.1(1.46 美元),高级层使用 Sonnet 4.6(8.13 美元)。** Opus 不在此列表中,因为其准确率表现无法证明在索引工作中支付 25 到 55 倍的溢价是合理的。
相似文章
18 款 LLM OCR 实测(7k+ 次调用):便宜/旧模型常吊打旗舰,完整数据集+框架已开源 [R]
对 18 款大模型在 OCR 任务上的全面评测(7k+ 次调用)发现,便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率,数据集与评测框架已完全开源。
开源LLM基准测试每4小时运行147个编码任务,采用5次试验中位数及95%置信区间,并使用CUSUM进行变点检测。好奇大家对这种方法的看法。
一个包含147个编码任务的开源LLM基准测试每4小时运行一次,采用5次试验中位数及95%置信区间,并使用CUSUM进行变点检测,引发了对其方法的讨论。
如果你只是自己使用模型而不对外提供服务,vLLM 真的值得用吗?
一名用户讨论了在 AMD 硬件上进行本地单用户推理时,使用 vLLM 与 llama.cpp 之间的权衡,质疑在非企业级环境中 vLLM 的性能优势是否足以弥补其带来的复杂性。
@DeRonin_: DeepSeek 刚发布了一篇5页论文和免费GitHub仓库,能让任何LLM响应速度提升80%,这项技术叫推测性解码...
DeepSeek 发布了一篇论文以及采用MIT许可证的开源实现(DSpark),通过使用小型“猜测”模型和大型“检查”模型,将LLM响应速度提升高达80%,同时兼顾速度与准确率,无需权衡取舍。
评估开源大语言模型在自主代号游戏模拟中的表现
一位开发者构建了一个代号游戏模拟平台,用于评估开源大语言模型在长程协作中的表现。结果显示,DeepSeek v4 Flash 在游戏逻辑对齐方面表现优异,胜出其他模型;而 Qwen 3 Next 和 GPT 5.4 Nano 则在规则约束和视角转换方面存在困难。