@BaiduAI_News: 我们正在开源Unlimited OCR——专为一次性读取长文档而构建。总参数3B,仅500M激活…
摘要
百度开源Unlimited OCR,一个3B参数模型(500M激活参数),使用Reference Sliding Window Attention(R-SWA)一次性读取长文档,在OmniDocBench上取得最先进的SOTA结果。
我们正在开源Unlimited OCR——专为一次性读取长文档而构建。
Unlimited OCR总参数3B,仅500M激活,在OmniDocBench v1.5和v1.6上创下了新的端到端SOTA结果。
关键创新在于Reference Sliding Window Attention(R-SWA),其灵感来源于人类抄写书籍的方式:保持对源文本、近期上下文和下一个单词的关注,同时温和地遗忘不再需要的内容。
凭借恒定的KV Cache大小和更低的注意力成本,Unlimited OCR可以在单次前向传播中转录40+页——不会丢失上下文或减慢速度。
探索模型:
--GitHub: https://github.com/baidu/Unlimited-OCR…
--Hugging Face: https://huggingface.co/baidu/Unlimited-OCR…
查看缓存全文
缓存时间: 2026/06/24 10:22
无限OCR工作
欢迎一次性长视界解析时代。
相似文章
Unlimited OCR: 一次性长程解析
百度发布Unlimited-OCR,这是一个基于Deepseek-OCR构建的开源模型,用于一次性长程文档解析,支持单张图片、多页文档和PDF。
baidu/Unlimited-OCR
百度发布了Unlimited-OCR,一种用于一次性长程文档解析的新模型,基于Deepseek-OCR构建。它支持通过Hugging Face Transformers和SGLang进行单图像和多页/PDF解析。
@ErickSky: 百度刚刚打破了当前OCR最大的限制之一。Unlimited-OCR一次性处理整个文档…
百度发布了Unlimited-OCR,它可以一次性处理整个文档而无需分块,克服了当前OCR技术的一个主要限制。
@_akhaliq: 百度刚刚发布了 Unlimited-OCR
百度发布了 Unlimited-OCR,这是一款无使用限制的光学字符识别服务。
@thesupermanmx: 中国刚刚开源了一款OCR模型,可一次性转录整本书。它名为Unlimited OCR。构建于…
中国开源了Unlimited OCR,这是一款基于DeepSeek OCR的OCR模型,可以一次性转录整本书,内存使用恒定,在标准解析基准上达到93%的准确率。