@AdinaYakup: Unlimited-OCR——@PaddlePaddle的新OCR模型,能够单次处理数百页文档,同时保持速度稳定…

X AI KOLs Following 模型

摘要

PaddlePaddle发布了Unlimited-OCR,一种新的OCR模型,使用参考滑动窗口注意力(R-SWA)在解码过程中保持恒定的KV缓存,在OmniDocBench上达到了93%的准确率,相比之前的方法提升了6%。

Unlimited-OCR 🔥@PaddlePaddle的新OCR模型 它可以在单次处理中解析数百页,同时保持稳定的速度。 关键思想是R-SWA(参考滑动窗口注意力),它在解码过程中保持KV缓存恒定。 🏆 在OmniDocBench上达到93% 📈 相比https://t.co/uuXPUhL22L提升6%
查看原文
查看缓存全文

缓存时间: 2026/06/22 17:38

Unlimited-OCR 🔥来自@PaddlePaddle的全新OCR

它可以单次解析数百页,同时保持稳定速度。

核心思路是R-SWA(参考滑动窗口注意力机制),该机制在解码过程中使KV缓存保持恒定。

🏆 在OmniDocBench上达到93%
📈 相比 https://t.co/uuXPUhL22L 提升+6%

相似文章

Unlimited OCR 的工作原理

Hugging Face Daily Papers

Unlimited OCR 引入了 Reference Sliding Window Attention,以消除长序列 OCR 任务中不断增长的内存消耗,从而能够在单次前向传播中高效转录多页文档。

PaddlePaddle/PaddleOCR

GitHub Trending (daily)

PaddleOCR是一个功能强大、轻量级的OCR工具包,可将PDF和图像转换为结构化数据,适用于AI应用,支持100多种语言,旨在连接文档与大语言模型。