@akshay_pachaar: - <1B参数 - 支持91种语言 - RTX 5090上每秒5页 - 可在CPU、GPU、MPS上运行 - 83.3% olmocr基准得分(3B以下最高)…
摘要
Surya OCR是一款最先进的开源OCR模型,参数少于10亿(<1B),支持91种语言,在3B参数以下的基准测试中取得最高分。
- <1B参数
- 支持91种语言
- RTX 5090上每秒5页
- 可在CPU、GPU、MPS上运行
- 83.3% olmocr基准得分(3B以下最高)
Surya OCR是一款最先进的文档智能模型。
100%开源。https://t.co/Sh2voqeUMf
查看缓存全文
缓存时间: 2026/05/31 06:39
- 小于10亿参数
- 支持91种语言
- 在RTX 5090上每秒5页
- 支持CPU、GPU、MPS运行
- 83.3% olmocr基准评分(3B以下最佳)
Surya OCR 是文档智能领域最先进的模型。
100%开源。https://t.co/Sh2voqeUMf
相似文章
@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
使用合成数据构建快速多语言OCR模型
NVIDIA推出Nemotron OCR v2,一个使用合成数据生成技术构建的快速多语言OCR模型。该模型通过采用统一的基于FOTS的架构,在检测、识别和关系组件之间实现特征复用,在单个A100 GPU上达到34.7页/秒的性能。
18 款 LLM OCR 实测(7k+ 次调用):便宜/旧模型常吊打旗舰,完整数据集+框架已开源 [R]
对 18 款大模型在 OCR 任务上的全面评测(7k+ 次调用)发现,便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率,数据集与评测框架已完全开源。
@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档,它就是 dots-ocr。一个处理文本、表格等的系统。
本文介绍了 dots-ocr,这是一个拥有 17 亿参数的模型,能够在超过 100 种语言中解析文档中的文本、表格、公式和图像,而无需单独的 OCR 处理流程。
abiruyt/text-extract-ocr
abiruyt/text-extract-ocr 是一个开源OCR模型,可在Replicate上使用,在CPU上运行,成本低且推理速度快。