18 款 LLM OCR 实测(7k+ 次调用):便宜/旧模型常吊打旗舰,完整数据集+框架已开源 [R]

Reddit r/MachineLearning 论文

摘要

对 18 款大模型在 OCR 任务上的全面评测(7k+ 次调用)发现,便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率,数据集与评测框架已完全开源。

**太长不看:** 我们发现自己为 OCR 多花了冤枉钱,于是把旗舰模型和便宜旧模型拉到一起比了比。新迷你基准 + 排行榜上线,免费工具可测你自己的文档,全部开源。我们在梳理 OCR / 文档提取流程时反复看到一个现象:太多团队要么卡在 legacy OCR 管线,要么默认用最新最大模型,结果 LLM 调用贵得离谱。我们精选 42 份标准文档,每份跑 10 次,严格同条件,共 7,560 次调用。核心结论:标准 OCR 场景下,更小更老的模型准确率不输旗舰,成本却只是零头。我们追踪 pass\^n(大规模可靠性)、单次成功成本、延迟、关键字段准确率。全部开源:[https://github.com/ArbitrHq/ocr-mini-bench](https://github.com/ArbitrHq/ocr-mini-bench) 排行榜:[https://arbitrhq.ai/leaderboards/](https://arbitrhq.ai/leaderboards/) 欢迎对比你们的结果。
查看原文

相似文章

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。