@AdinaYakup: Unlimited-OCR——@PaddlePaddle的新OCR模型,能够单次处理数百页文档,同时保持速度稳定…
摘要
PaddlePaddle发布了Unlimited-OCR,一种新的OCR模型,使用参考滑动窗口注意力(R-SWA)在解码过程中保持恒定的KV缓存,在OmniDocBench上达到了93%的准确率,相比之前的方法提升了6%。
查看缓存全文
缓存时间: 2026/06/22 17:38
Unlimited-OCR 🔥来自@PaddlePaddle的全新OCR
它可以单次解析数百页,同时保持稳定速度。
核心思路是R-SWA(参考滑动窗口注意力机制),该机制在解码过程中使KV缓存保持恒定。
🏆 在OmniDocBench上达到93%
📈 相比 https://t.co/uuXPUhL22L 提升+6%
相似文章
Unlimited OCR 的工作原理
Unlimited OCR 引入了 Reference Sliding Window Attention,以消除长序列 OCR 任务中不断增长的内存消耗,从而能够在单次前向传播中高效转录多页文档。
PaddleOCR-VL-1.6:通过欠优化区域精炼与渐进式后训练拓展文档解析前沿
PaddleOCR-VL-1.6 通过识别并精炼欠优化区域,结合针对性的数据优化与渐进式后训练,提升了文档解析性能,在 OmniDocBench v1.6 上达到 96.33% 的最新最优水平。
PaddlePaddle/PaddleOCR
PaddleOCR是一个功能强大、轻量级的OCR工具包,可将PDF和图像转换为结构化数据,适用于AI应用,支持100多种语言,旨在连接文档与大语言模型。
@AdinaYakup: 百度 @PaddlePaddle 发布 PP-OCRv6:tiny 1.5M / small 7.7M / medium 34.5M,支持 48+ 种语言,支持手写/……
百度 PaddlePaddle 发布了 PP-OCRv6,一款支持 48+ 种语言的 OCR 模型,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三种尺寸,针对边缘部署进行了优化,可处理手写、印刷、工业、屏幕和卡片文字。
@GoSailGlobal: 现在的 OCR 处理几十页文档,是逐页跑的 每翻一页,记忆清零一次 百度今天悄悄在 GitHub 和 HuggingFace 开源了一个模型,叫 Unlimited OCR,它的灵感,来自人类抄书: - 你抄一本书,不会每写一个字就把前面…
百度开源了 Unlimited OCR 模型,采用参考滑动窗口注意力(R-SWA)机制,实现了对长达 32K 上下文的一次性文档解析,无需逐页推理。