TurboOCR v3 — 高速文档OCR服务器 (C++/CUDA),在RTX 5090上约520张/秒
摘要
TurboOCR v3 是一款自托管的高速OCR服务器,在RTX 5090上使用PP-OCRv6模型实现约每秒520张图片的处理速度,并新增了表格和公式的结构化解析功能。
TurboOCR 是一款自托管的高速文档OCR服务器,完全本地运行。以下是v3的新特性:速度:整个流水线现已升级到最新的PP-OCRv6模型(从v5升级):在FUNSD上从约270张/秒提升至约520张/秒(v6 tiny,RTX 5090)。仍然完全本地运行,支持HTTP + gRPC。结构化解析(主要新增功能):端到端处理:布局 → 表格转HTML → 公式转LaTeX → 按阅读顺序输出Markdown。表格和公式是按请求严格选用的,因此仅在需要时才会产生额外开销。技术栈:C++,TensorRT FP16,多流,gRPC/HTTP,直接PDF端点,PP-OCRv6。仓库:https://github.com/aiptimizer/TurboOCR
相似文章
使用合成数据构建快速多语言OCR模型
NVIDIA推出Nemotron OCR v2,一个使用合成数据生成技术构建的快速多语言OCR模型。该模型通过采用统一的基于FOTS的架构,在检测、识别和关系组件之间实现特征复用,在单个A100 GPU上达到34.7页/秒的性能。
@akshay_pachaar: - <1B参数 - 支持91种语言 - RTX 5090上每秒5页 - 可在CPU、GPU、MPS上运行 - 83.3% olmocr基准得分(3B以下最高)…
Surya OCR是一款最先进的开源OCR模型,参数少于10亿(<1B),支持91种语言,在3B参数以下的基准测试中取得最高分。
PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务
PaddleOCR 3.5 新增了 Transformers 推理后端,使 PP-OCRv5 和 PaddleOCR-VL 1.5 等 OCR 及文档解析模型能够无缝运行于 Hugging Face 生态系统之中。
@TeksEdge: 需要OCR文档吗?PP-OCRv6已发布——目前你可以下载的最佳开源OCR模型 ◆︎ 完全开源…
PP-OCRv6是百度PaddleOCR新推出的开源OCR模型系列,提供Tiny/Small/Medium三种尺寸,精度和速度优秀,优于多个商业模型。
Hugging Face 上的 PP-OCRv6:支持 50 种语言、参数规模从 1.5M 到 34.5M 的 OCR 模型
PP-OCRv6 是 PaddleOCR 通用 OCR 模型系列的最新版本,提供从 1.5M 到 34.5M 参数的三个档次,支持 50 种语言,并在准确率上较之前版本有显著提升。