@berryxia: 卧槽,这一波直接把DeepSeek的“墙角挖到了啊”! 昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。 这个OCR模型直接与传统的OCR模型完全不同! 光着速度和精准度真的就无敌了~~ 先说说背景,熟悉…
摘要
百度开源了Unlimited OCR模型,采用R-SWA注意力机制,可一次性处理数百页文档,无需分页,KV Cache恒定。该模型创新性地借鉴了人类抄书时的注意力模式,并与DeepSeek OCR有技术渊源,引发了对人才流动的关注。
查看缓存全文
缓存时间: 2026/06/23 14:10
卧槽,这一波直接把DeepSeek的“墙角挖到了啊”!
昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。
这个OCR模型直接与传统的OCR模型完全不同! 光着速度和精准度真的就无敌了~~
先说说背景,熟悉的朋友都知道,我最近做过几次OCR评测(可以翻阅我的前面文章),测过18个文档、6类场景,搭过本地工作流。对OCR的能力边界,算是有点体感。
之前评测最头疼的并不是准确率,是多页文档的工作流。所有模型都是逐页处理。
每一页清空一次记忆,再用外部调度器拼接结果。 本质上是个for-loop (循环),并不是真正的长程理解。
而百度这次开源的Unlimited OCR,解法完全不同。 它不逐页处理。
一次前向推理,几十页文档直接转录完。
核心卖点就一句话:One-Shot Long-Horizon Parsing(单次长时解析),也就是说句话说:无需大规模标注数据,低成本实现长文本深度句法理解,适配大语言模型少样本能力。
一张图或者一本多页PDF,直接扔进去就能一次性解析完,不用再切成小块反复跑。这特么是真的爽啊!
据说这个模型灵感来源很有意思,人类抄书的时候,不会把整本书都记在脑子里。
只关注三个点:原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。 近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。
Unlimited OCR的核心机制R-SWA,参考滑动窗口注意力,就是模拟这个过程。
每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文,一次推理几十页。KV Cache大小恒定,不随文档长度增长。
这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。
现在越来越清楚:只要上下文够长、模型够强,一镜到底反而更高效、更准确。
技术报告的写法也很有意思,故事性极强,想法激进。 有种探索者的气质,这种风格此前都是DeepSeek技术报告的专属标签。
然后事情就开始变得有趣了。
翻了下技术报告的核心贡献者。 三位中,两个人用真名。 唯独技术总监挂了个两字母缩写YY。YY是谁?
顺着线索往回找下看看?
GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。
这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。
里面提及DeepSeek OCR的部分,语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。
国内OCR圈也不算太大哈。 能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人,一只手数得过来。
我们再看看另一外个细节哈。
2026年4月24日,DeepSeek-V4正式发布。58页技术报告末尾,近300个名字按字母顺序排列。
其中有10个名字旁边标注了一个小小的星号:已离职。 从2025年下半年到2026年初,不到半年,DeepSeek走了五个人。
他们去了哪。YY是谁。报告没直说,但越读越觉得答案在字里行间。
也明显看出来百度走最近的路子确实不一样了,你可要知道一直最强的OCR 莫属于他们啊,几乎没有什么对手啊!
从PaddleOCR到这次的Unlimited OCR,能感觉到在往一个更前沿的方向走。
这更新迭代速度,这人才储备的能力,以及发展方向,未来可期。
不管八卦,单论技术。一镜到底的长文档OCR这个方向确实是对的。
项目、模型都是开源,感兴趣的自己试试地址评论区。
Berryxia.AI (@berryxia): 这速度真特么离谱啊!卧槽!
最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。
而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window Attention)。
它让模型在解码时KV Cache保持恒定,不会随着文档页数增加而爆炸式增长。
相似文章
@GoSailGlobal: 现在的 OCR 处理几十页文档,是逐页跑的 每翻一页,记忆清零一次 百度今天悄悄在 GitHub 和 HuggingFace 开源了一个模型,叫 Unlimited OCR,它的灵感,来自人类抄书: - 你抄一本书,不会每写一个字就把前面…
百度开源了 Unlimited OCR 模型,采用参考滑动窗口注意力(R-SWA)机制,实现了对长达 32K 上下文的一次性文档解析,无需逐页推理。
@geekbb: 百度开源的视觉语言模型 OCR 项目,在 DeepSeek-OCR 基础上做了升级,主打一次性解析超长文档。模型有两种推理模式:gundam 模式用来对付单张图里的密集文字,base 模式处理多页或 PDF。 https://github…
百度开源了视觉语言模型Unlimited-OCR,基于DeepSeek-OCR升级,支持一次性解析超长文档,提供gundam(单图密集文字)和base(多页/PDF)两种推理模式。
@berryxia: https://x.com/berryxia/status/2067078380017828205
作者实测了PP-OCRv6三档模型并提供了本地部署的开源工具,展示了在OmniDocBench及真实场景下各模型的性能对比,强调轻量专用模型在OCR任务上的优势。
@manateelazycat: 百度这个 AI 黄埔军校来了大神? 在 DeepSeek OCR 基础上开源的Unlimited OCR 出手就是王炸 在它自己的公布数据里,OmniDocBench v1.5 取得了 93.23 分,超过了 DeepSeek OCR 和…
开源OCR模型Unlimited OCR基于DeepSeek OCR,仅3B参数便在OmniDocBench v1.5上取得93.23分,超越DeepSeek OCR和Gemini 2.5等对手。
@rionaifantasy: 逆天了!34.5M 参数的 OCR,凭什么能赢过 235B 大模型? 说个离大谱的事,我以前一直以为 OCR 的未来一定会被越来越大的多模态大模型吃掉。 但看完百度文心这次发布的 PP-OCRv6,我有所改观了。 因为它走的不是“继续堆参…
百度文心发布 PP-OCRv6,提供 Tiny/Small/Medium 三档模型,支持 50 多种语言;其中 Tiny 版仅 1.5MB 可在浏览器本地运行,单图预测最快 97ms,证明小型专用模型可在 OCR 任务上超越大模型。