@berryxia: 卧槽，这一波直接把DeepSeek的“墙角挖到了啊”！昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。这个OCR模型直接与传统的OCR模型完全不同！光着速度和精准度真的就无敌了~~ 先说说背景，熟悉…

X AI KOLs Timeline 2026/06/23 00:01 模型

ocr open-source document-parsing attention-mechanism baidu deepseek

摘要

百度开源了Unlimited OCR模型，采用R-SWA注意力机制，可一次性处理数百页文档，无需分页，KV Cache恒定。该模型创新性地借鉴了人类抄书时的注意力模式，并与DeepSeek OCR有技术渊源，引发了对人才流动的关注。

卧槽，这一波直接把DeepSeek的“墙角挖到了啊”！昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。这个OCR模型直接与传统的OCR模型完全不同！光着速度和精准度真的就无敌了~~ 先说说背景，熟悉的朋友都知道，我最近做过几次OCR评测（可以翻阅我的前面文章），测过18个文档、6类场景，搭过本地工作流。对OCR的能力边界，算是有点体感。之前评测最头疼的并不是准确率，是多页文档的工作流。所有模型都是逐页处理。每一页清空一次记忆，再用外部调度器拼接结果。本质上是个for-loop （循环），并不是真正的长程理解。而百度这次开源的Unlimited OCR，解法完全不同。它不逐页处理。一次前向推理，几十页文档直接转录完。核心卖点就一句话：One-Shot Long-Horizon Parsing（单次长时解析），也就是说句话说：无需大规模标注数据，低成本实现长文本深度句法理解，适配大语言模型少样本能力。一张图或者一本多页PDF，直接扔进去就能一次性解析完，不用再切成小块反复跑。这特么是真的爽啊！据说这个模型灵感来源很有意思，人类抄书的时候，不会把整本书都记在脑子里。只关注三个点：原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。 Unlimited OCR的核心机制R-SWA，参考滑动窗口注意力，就是模拟这个过程。每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文，一次推理几十页。KV Cache大小恒定，不随文档长度增长。这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。现在越来越清楚：只要上下文够长、模型够强，一镜到底反而更高效、更准确。技术报告的写法也很有意思，故事性极强，想法激进。有种探索者的气质，这种风格此前都是DeepSeek技术报告的专属标签。然后事情就开始变得有趣了。翻了下技术报告的核心贡献者。三位中，两个人用真名。唯独技术总监挂了个两字母缩写YY。YY是谁？顺着线索往回找下看看？ GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。里面提及DeepSeek OCR的部分，语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。国内OCR圈也不算太大哈。能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人，一只手数得过来。我们再看看另一外个细节哈。 2026年4月24日，DeepSeek-V4正式发布。58页技术报告末尾，近300个名字按字母顺序排列。其中有10个名字旁边标注了一个小小的星号：已离职。从2025年下半年到2026年初，不到半年，DeepSeek走了五个人。他们去了哪。YY是谁。报告没直说，但越读越觉得答案在字里行间。也明显看出来百度走最近的路子确实不一样了，你可要知道一直最强的OCR 莫属于他们啊，几乎没有什么对手啊！从PaddleOCR到这次的Unlimited OCR，能感觉到在往一个更前沿的方向走。这更新迭代速度，这人才储备的能力，以及发展方向，未来可期。不管八卦，单论技术。一镜到底的长文档OCR这个方向确实是对的。项目、模型都是开源，感兴趣的自己试试地址评论区。

查看原文

查看缓存全文

缓存时间: 2026/06/23 14:10

卧槽，这一波直接把DeepSeek的“墙角挖到了啊”！

昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。

这个OCR模型直接与传统的OCR模型完全不同！光着速度和精准度真的就无敌了~~

先说说背景，熟悉的朋友都知道，我最近做过几次OCR评测（可以翻阅我的前面文章），测过18个文档、6类场景，搭过本地工作流。对OCR的能力边界，算是有点体感。

之前评测最头疼的并不是准确率，是多页文档的工作流。所有模型都是逐页处理。

每一页清空一次记忆，再用外部调度器拼接结果。本质上是个for-loop （循环），并不是真正的长程理解。

而百度这次开源的Unlimited OCR，解法完全不同。它不逐页处理。

一次前向推理，几十页文档直接转录完。

核心卖点就一句话：One-Shot Long-Horizon Parsing（单次长时解析），也就是说句话说：无需大规模标注数据，低成本实现长文本深度句法理解，适配大语言模型少样本能力。

一张图或者一本多页PDF，直接扔进去就能一次性解析完，不用再切成小块反复跑。这特么是真的爽啊！

据说这个模型灵感来源很有意思，人类抄书的时候，不会把整本书都记在脑子里。

只关注三个点：原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。

Unlimited OCR的核心机制R-SWA，参考滑动窗口注意力，就是模拟这个过程。

每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文，一次推理几十页。KV Cache大小恒定，不随文档长度增长。

这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。

现在越来越清楚：只要上下文够长、模型够强，一镜到底反而更高效、更准确。

技术报告的写法也很有意思，故事性极强，想法激进。有种探索者的气质，这种风格此前都是DeepSeek技术报告的专属标签。

然后事情就开始变得有趣了。

翻了下技术报告的核心贡献者。三位中，两个人用真名。唯独技术总监挂了个两字母缩写YY。YY是谁？

顺着线索往回找下看看？

GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。

这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。

里面提及DeepSeek OCR的部分，语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。

国内OCR圈也不算太大哈。能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人，一只手数得过来。

我们再看看另一外个细节哈。

2026年4月24日，DeepSeek-V4正式发布。58页技术报告末尾，近300个名字按字母顺序排列。

其中有10个名字旁边标注了一个小小的星号：已离职。从2025年下半年到2026年初，不到半年，DeepSeek走了五个人。

他们去了哪。YY是谁。报告没直说，但越读越觉得答案在字里行间。

也明显看出来百度走最近的路子确实不一样了，你可要知道一直最强的OCR 莫属于他们啊，几乎没有什么对手啊！

从PaddleOCR到这次的Unlimited OCR，能感觉到在往一个更前沿的方向走。

这更新迭代速度，这人才储备的能力，以及发展方向，未来可期。

不管八卦，单论技术。一镜到底的长文档OCR这个方向确实是对的。

项目、模型都是开源，感兴趣的自己试试地址评论区。

Berryxia.AI (@berryxia): 这速度真特么离谱啊！卧槽！

最新开源的Unlimited-OCR能一次性处理几百页文档，而且速度还很稳。

而这个模型来自百度刚刚在hugging face 发布，其核心创新是R-SWA（Reference Sliding Window Attention）。

它让模型在解码时KV Cache保持恒定，不会随着文档页数增加而爆炸式增长。

相似文章

@GoSailGlobal: 现在的 OCR 处理几十页文档，是逐页跑的每翻一页，记忆清零一次百度今天悄悄在 GitHub 和 HuggingFace 开源了一个模型，叫 Unlimited OCR，它的灵感，来自人类抄书： - 你抄一本书，不会每写一个字就把前面…

X AI KOLs Timeline

百度开源了 Unlimited OCR 模型，采用参考滑动窗口注意力（R-SWA）机制，实现了对长达 32K 上下文的一次性文档解析，无需逐页推理。

@geekbb: 百度开源的视觉语言模型 OCR 项目，在 DeepSeek-OCR 基础上做了升级，主打一次性解析超长文档。模型有两种推理模式：gundam 模式用来对付单张图里的密集文字，base 模式处理多页或 PDF。 https://github…

X AI KOLs Timeline

百度开源了视觉语言模型Unlimited-OCR，基于DeepSeek-OCR升级，支持一次性解析超长文档，提供gundam（单图密集文字）和base（多页/PDF）两种推理模式。

@berryxia: https://x.com/berryxia/status/2067078380017828205

X AI KOLs Timeline

作者实测了PP-OCRv6三档模型并提供了本地部署的开源工具，展示了在OmniDocBench及真实场景下各模型的性能对比，强调轻量专用模型在OCR任务上的优势。

@manateelazycat: 百度这个 AI 黄埔军校来了大神？在 DeepSeek OCR 基础上开源的Unlimited OCR 出手就是王炸在它自己的公布数据里，OmniDocBench v1.5 取得了 93.23 分，超过了 DeepSeek OCR 和…

X AI KOLs Timeline

开源OCR模型Unlimited OCR基于DeepSeek OCR，仅3B参数便在OmniDocBench v1.5上取得93.23分，超越DeepSeek OCR和Gemini 2.5等对手。

@rionaifantasy: 逆天了！34.5M 参数的 OCR，凭什么能赢过 235B 大模型？说个离大谱的事，我以前一直以为 OCR 的未来一定会被越来越大的多模态大模型吃掉。但看完百度文心这次发布的 PP-OCRv6，我有所改观了。因为它走的不是“继续堆参…

X AI KOLs Timeline

百度文心发布 PP-OCRv6，提供 Tiny/Small/Medium 三档模型，支持 50 多种语言；其中 Tiny 版仅 1.5MB 可在浏览器本地运行，单图预测最快 97ms，证明小型专用模型可在 OCR 任务上超越大模型。

相似文章

@GoSailGlobal: 现在的 OCR 处理几十页文档，是逐页跑的 每翻一页，记忆清零一次 百度今天悄悄在 GitHub 和 HuggingFace 开源了一个模型，叫 Unlimited OCR，它的灵感，来自人类抄书： - 你抄一本书，不会每写一个字就把前面…

@geekbb: 百度开源的视觉语言模型 OCR 项目，在 DeepSeek-OCR 基础上做了升级，主打一次性解析超长文档。模型有两种推理模式：gundam 模式用来对付单张图里的密集文字，base 模式处理多页或 PDF。 https://github…

@berryxia: https://x.com/berryxia/status/2067078380017828205

@manateelazycat: 百度这个 AI 黄埔军校来了大神？ 在 DeepSeek OCR 基础上开源的Unlimited OCR 出手就是王炸 在它自己的公布数据里，OmniDocBench v1.5 取得了 93.23 分，超过了 DeepSeek OCR 和…

提交意见反馈

@GoSailGlobal: 现在的 OCR 处理几十页文档，是逐页跑的每翻一页，记忆清零一次百度今天悄悄在 GitHub 和 HuggingFace 开源了一个模型，叫 Unlimited OCR，它的灵感，来自人类抄书： - 你抄一本书，不会每写一个字就把前面…

@manateelazycat: 百度这个 AI 黄埔军校来了大神？在 DeepSeek OCR 基础上开源的Unlimited OCR 出手就是王炸在它自己的公布数据里，OmniDocBench v1.5 取得了 93.23 分，超过了 DeepSeek OCR 和…