18 款 LLM OCR 实测（7k+ 次调用）：便宜/旧模型常吊打旗舰，完整数据集+框架已开源 [R]

Reddit r/MachineLearning 2026/04/23 05:40 论文

摘要

对 18 款大模型在 OCR 任务上的全面评测（7k+ 次调用）发现，便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率，数据集与评测框架已完全开源。

**太长不看：** 我们发现自己为 OCR 多花了冤枉钱，于是把旗舰模型和便宜旧模型拉到一起比了比。新迷你基准 + 排行榜上线，免费工具可测你自己的文档，全部开源。我们在梳理 OCR / 文档提取流程时反复看到一个现象：太多团队要么卡在 legacy OCR 管线，要么默认用最新最大模型，结果 LLM 调用贵得离谱。我们精选 42 份标准文档，每份跑 10 次，严格同条件，共 7,560 次调用。核心结论：标准 OCR 场景下，更小更老的模型准确率不输旗舰，成本却只是零头。我们追踪 pass\^n（大规模可靠性）、单次成功成本、延迟、关键字段准确率。全部开源：[https://github.com/ArbitrHq/ocr-mini-bench](https://github.com/ArbitrHq/ocr-mini-bench) 排行榜：[https://arbitrhq.ai/leaderboards/](https://arbitrhq.ai/leaderboards/) 欢迎对比你们的结果。

查看原文

18 款 LLM OCR 实测（7k+ 次调用）：便宜/旧模型常吊打旗舰，完整数据集+框架已开源 [R]

相似文章

@techNmak：1.7B 参数轻量 VLM，在 OmniDocBench 上碾压巨头的 OCR 新王者

我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法，但事实并非如此。

@cjzafir: 垂直语言模型（VLMs）正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

LegalBench-BR：评估大语言模型在巴西法律判决分类上的基准

提交意见反馈