TurboOCR v3 — 高速文档OCR服务器 (C++/CUDA),在RTX 5090上约520张/秒

Reddit r/LocalLLaMA 工具

摘要

TurboOCR v3 是一款自托管的高速OCR服务器,在RTX 5090上使用PP-OCRv6模型实现约每秒520张图片的处理速度,并新增了表格和公式的结构化解析功能。

TurboOCR 是一款自托管的高速文档OCR服务器,完全本地运行。以下是v3的新特性:速度:整个流水线现已升级到最新的PP-OCRv6模型(从v5升级):在FUNSD上从约270张/秒提升至约520张/秒(v6 tiny,RTX 5090)。仍然完全本地运行,支持HTTP + gRPC。结构化解析(主要新增功能):端到端处理:布局 → 表格转HTML → 公式转LaTeX → 按阅读顺序输出Markdown。表格和公式是按请求严格选用的,因此仅在需要时才会产生额外开销。技术栈:C++,TensorRT FP16,多流,gRPC/HTTP,直接PDF端点,PP-OCRv6。仓库:https://github.com/aiptimizer/TurboOCR
查看原文

相似文章

使用合成数据构建快速多语言OCR模型

Hugging Face Blog

NVIDIA推出Nemotron OCR v2,一个使用合成数据生成技术构建的快速多语言OCR模型。该模型通过采用统一的基于FOTS的架构,在检测、识别和关系组件之间实现特征复用,在单个A100 GPU上达到34.7页/秒的性能。