@techNmak：1.7B 参数轻量 VLM，在 OmniDocBench 上碾压巨头的 OCR 新王者

X AI KOLs Timeline 2026/04/20 14:20 模型

ocr vision-language-model document-understanding lightweight multilingual state-of-the-art

摘要

仅 1.7B 参数的多语言文档解析器 dots.ocr，用轻量体积实现 SOTA，证明文档理解无需巨无霸模型。

仅 1.7B 参数的多语言文档解析器 dots.ocr，用轻量体积在 OmniDocBench 拿下 SOTA，证明完美文档理解无需 72B+ 的巨无霸模型。

查看原文

查看缓存全文

缓存时间: 未知

一个轻量级 VLM，在 OCR 上击败巨头。（17 亿参数，OmniDocBench SOTA）

dots.ocr 是一款全新的多语言文档解析器，它证明：完美的文档理解无需巨型模型。当前 SOTA 模型往往高达 720 亿+参数，或需要……

相似文章

X AI KOLs Timeline

PP-OCRv6是一个轻量级OCR模型（3450万参数），凭借其MetaFormer架构挑战大型VLM，在多种部署场景下提供高效的文本检测与识别能力。

Papers with Code Trending

本文介绍了 dots.ocr，一个统一的视觉语言模型，它联合学习布局检测、文本识别和关系理解，用于多语言文档布局解析。它在 OmniDocBench 上取得了最先进的结果，并引入了覆盖 126 种语言的 XDocParse 基准。

X AI KOLs Timeline

本文介绍了 dots-ocr，这是一个拥有 17 亿参数的模型，能够在超过 100 种语言中解析文档中的文本、表格、公式和图像，而无需单独的 OCR 处理流程。

X AI KOLs Timeline

百度文心发布 PP-OCRv6，提供 Tiny/Small/Medium 三档模型，支持 50 多种语言；其中 Tiny 版仅 1.5MB 可在浏览器本地运行，单图预测最快 97ms，证明小型专用模型可在 OCR 任务上超越大模型。

Papers with Code Trending

olmOCR 是一个开源工具包，使用微调的视觉语言模型从PDF中提取干净的文本，同时保留结构，并针对大规模批处理进行了优化。