@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档，它就是 dots-ocr。一个处理文本、表格等的系统。

X AI KOLs Timeline 2026/05/12 16:07 模型

ocr document-parsing open-source multimodal dots-ocr

摘要

本文介绍了 dots-ocr，这是一个拥有 17 亿参数的模型，能够在超过 100 种语言中解析文档中的文本、表格、公式和图像，而无需单独的 OCR 处理流程。

您现在可以用一个 17 亿参数的模型解析任何文档 🤯 它被称为 dots-ocr。一个处理文本、表格、公式、图像和 PDF 的系统，支持 100 多种语言。无需单独的 OCR 流程。无需特定任务的模型。 https://t.co/KTK8GrZ9hf

查看原文

查看缓存全文

缓存时间: 2026/05/13 10:18

现在，你可以仅用一个拥有 17 亿参数的模型来解析任何文档 🤯

它被称为 dots-ocr。这是一个能够跨 100 多种语言处理文本、表格、公式、图像和 PDF 的统一系统。

无需单独的 OCR 流程。无需针对特定任务的模型。 https://t.co/KTK8GrZ9hf

相似文章

X AI KOLs Timeline

仅 1.7B 参数的多语言文档解析器 dots.ocr，用轻量体积实现 SOTA，证明文档理解无需巨无霸模型。

Hacker News Top

百度发布Unlimited-OCR，这是一个基于Deepseek-OCR构建的开源模型，用于一次性长程文档解析，支持单张图片、多页文档和PDF。

Papers with Code Trending

本文介绍了 dots.ocr，一个统一的视觉语言模型，它联合学习布局检测、文本识别和关系理解，用于多语言文档布局解析。它在 OmniDocBench 上取得了最先进的结果，并引入了覆盖 126 种语言的 XDocParse 基准。

Hugging Face Models Trending

百度发布了Unlimited-OCR，一种用于一次性长程文档解析的新模型，基于Deepseek-OCR构建。它支持通过Hugging Face Transformers和SGLang进行单图像和多页/PDF解析。

X AI KOLs Timeline

百度开源Unlimited OCR，一个3B参数模型（500M激活参数），使用Reference Sliding Window Attention（R-SWA）一次性读取长文档，在OmniDocBench上取得最先进的SOTA结果。