18 款 LLM OCR 实测(7k+ 次调用):便宜/旧模型常吊打旗舰,完整数据集+框架已开源 [R]
摘要
对 18 款大模型在 OCR 任务上的全面评测(7k+ 次调用)发现,便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率,数据集与评测框架已完全开源。
**太长不看:** 我们发现自己为 OCR 多花了冤枉钱,于是把旗舰模型和便宜旧模型拉到一起比了比。新迷你基准 + 排行榜上线,免费工具可测你自己的文档,全部开源。我们在梳理 OCR / 文档提取流程时反复看到一个现象:太多团队要么卡在 legacy OCR 管线,要么默认用最新最大模型,结果 LLM 调用贵得离谱。我们精选 42 份标准文档,每份跑 10 次,严格同条件,共 7,560 次调用。核心结论:标准 OCR 场景下,更小更老的模型准确率不输旗舰,成本却只是零头。我们追踪 pass\^n(大规模可靠性)、单次成功成本、延迟、关键字段准确率。全部开源:[https://github.com/ArbitrHq/ocr-mini-bench](https://github.com/ArbitrHq/ocr-mini-bench) 排行榜:[https://arbitrhq.ai/leaderboards/](https://arbitrhq.ai/leaderboards/) 欢迎对比你们的结果。
相似文章
@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法,但事实并非如此。
一项基准研究表明,使用 LLM 分析整个代码库具有成本效益。DeepSeek V4 Flash 因其低成本以及与 Claude Opus 等高端选项相当的准确率,被确定为最佳默认模型。
@cjzafir: 垂直语言模型(VLMs)正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……
作者演示了,通过使用开源模型和Codex编排进行高性价比微调,小型垂直语言模型(6B-15B)能够在细分基准上超越顶级大语言模型,仅用价值300美元的数据集就取得了成果。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
LegalBench-BR:评估大语言模型在巴西法律判决分类上的基准
研究者发布首个公开基准 LegalBench-BR,用于评估大模型在巴西法律文本分类任务上的表现。实验表明,LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。