@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者

X AI KOLs Timeline 模型

摘要

仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。

仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积在 OmniDocBench 拿下 SOTA,证明完美文档理解无需 72B+ 的巨无霸模型。
查看原文
查看缓存全文

缓存时间: 未知

一个轻量级 VLM,在 OCR 上击败巨头。(17 亿参数,OmniDocBench SOTA)

dots.ocr 是一款全新的多语言文档解析器,它证明:完美的文档理解无需巨型模型。当前 SOTA 模型往往高达 720 亿+参数,或需要……

相似文章

dots.ocr:单个视觉语言模型中的多语言文档布局解析

Papers with Code Trending

本文介绍了 dots.ocr,一个统一的视觉语言模型,它联合学习布局检测、文本识别和关系理解,用于多语言文档布局解析。它在 OmniDocBench 上取得了最先进的结果,并引入了覆盖 126 种语言的 XDocParse 基准。

@rionaifantasy: 逆天了!34.5M 参数的 OCR,凭什么能赢过 235B 大模型? 说个离大谱的事,我以前一直以为 OCR 的未来一定会被越来越大的多模态大模型吃掉。 但看完百度文心这次发布的 PP-OCRv6,我有所改观了。 因为它走的不是“继续堆参…

X AI KOLs Timeline

百度文心发布 PP-OCRv6,提供 Tiny/Small/Medium 三档模型,支持 50 多种语言;其中 Tiny 版仅 1.5MB 可在浏览器本地运行,单图预测最快 97ms,证明小型专用模型可在 OCR 任务上超越大模型。