@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
摘要
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积在 OmniDocBench 拿下 SOTA,证明完美文档理解无需 72B+ 的巨无霸模型。
查看缓存全文
缓存时间: 未知
一个轻量级 VLM,在 OCR 上击败巨头。(17 亿参数,OmniDocBench SOTA)
dots.ocr 是一款全新的多语言文档解析器,它证明:完美的文档理解无需巨型模型。当前 SOTA 模型往往高达 720 亿+参数,或需要……
相似文章
@PaddlePaddle: PP-OCRv6技术深度解析第一集:在大模型时代,轻量级OCR为何仍具有不可替代的价值?——PP…
PP-OCRv6是一个轻量级OCR模型(3450万参数),凭借其MetaFormer架构挑战大型VLM,在多种部署场景下提供高效的文本检测与识别能力。
dots.ocr:单个视觉语言模型中的多语言文档布局解析
本文介绍了 dots.ocr,一个统一的视觉语言模型,它联合学习布局检测、文本识别和关系理解,用于多语言文档布局解析。它在 OmniDocBench 上取得了最先进的结果,并引入了覆盖 126 种语言的 XDocParse 基准。
@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档,它就是 dots-ocr。一个处理文本、表格等的系统。
本文介绍了 dots-ocr,这是一个拥有 17 亿参数的模型,能够在超过 100 种语言中解析文档中的文本、表格、公式和图像,而无需单独的 OCR 处理流程。
@rionaifantasy: 逆天了!34.5M 参数的 OCR,凭什么能赢过 235B 大模型? 说个离大谱的事,我以前一直以为 OCR 的未来一定会被越来越大的多模态大模型吃掉。 但看完百度文心这次发布的 PP-OCRv6,我有所改观了。 因为它走的不是“继续堆参…
百度文心发布 PP-OCRv6,提供 Tiny/Small/Medium 三档模型,支持 50 多种语言;其中 Tiny 版仅 1.5MB 可在浏览器本地运行,单图预测最快 97ms,证明小型专用模型可在 OCR 任务上超越大模型。
olmOCR:利用视觉语言模型解锁PDF中的数万亿Token
olmOCR 是一个开源工具包,使用微调的视觉语言模型从PDF中提取干净的文本,同时保留结构,并针对大规模批处理进行了优化。