@BaiduAI_News: 我们正在开源Unlimited OCR——专为一次性读取长文档而构建。总参数3B，仅500M激活…

X AI KOLs Timeline 2026/06/23 07:32 模型

ocr open-source attention-mechanism document-parsing baidu long-document

摘要

百度开源Unlimited OCR，一个3B参数模型（500M激活参数），使用Reference Sliding Window Attention（R-SWA）一次性读取长文档，在OmniDocBench上取得最先进的SOTA结果。

我们正在开源Unlimited OCR——专为一次性读取长文档而构建。 Unlimited OCR总参数3B，仅500M激活，在OmniDocBench v1.5和v1.6上创下了新的端到端SOTA结果。关键创新在于Reference Sliding Window Attention（R-SWA），其灵感来源于人类抄写书籍的方式：保持对源文本、近期上下文和下一个单词的关注，同时温和地遗忘不再需要的内容。凭借恒定的KV Cache大小和更低的注意力成本，Unlimited OCR可以在单次前向传播中转录40+页——不会丢失上下文或减慢速度。探索模型： --GitHub: https://github.com/baidu/Unlimited-OCR… --Hugging Face: https://huggingface.co/baidu/Unlimited-OCR…

查看原文

查看缓存全文

缓存时间: 2026/06/24 10:22

无限OCR工作

欢迎一次性长视界解析时代。

@BaiduAI_News: 我们正在开源Unlimited OCR——专为一次性读取长文档而构建。总参数3B，仅500M激活…

相似文章

Unlimited OCR: 一次性长程解析

baidu/Unlimited-OCR

@ErickSky: 百度刚刚打破了当前OCR最大的限制之一。Unlimited-OCR一次性处理整个文档…

@_akhaliq: 百度刚刚发布了 Unlimited-OCR

@thesupermanmx: 中国刚刚开源了一款OCR模型，可一次性转录整本书。它名为Unlimited OCR。构建于…

提交意见反馈