@berryxia: 卧槽,这一波直接把DeepSeek的“墙角挖到了啊”! 昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。 这个OCR模型直接与传统的OCR模型完全不同! 光着速度和精准度真的就无敌了~~ 先说说背景,熟悉…

X AI KOLs Timeline 模型

摘要

百度开源了Unlimited OCR模型,采用R-SWA注意力机制,可一次性处理数百页文档,无需分页,KV Cache恒定。该模型创新性地借鉴了人类抄书时的注意力模式,并与DeepSeek OCR有技术渊源,引发了对人才流动的关注。

卧槽,这一波直接把DeepSeek的“墙角挖到了啊”! 昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。 这个OCR模型直接与传统的OCR模型完全不同! 光着速度和精准度真的就无敌了~~ 先说说背景,熟悉的朋友都知道,我最近做过几次OCR评测(可以翻阅我的前面文章),测过18个文档、6类场景,搭过本地工作流。对OCR的能力边界,算是有点体感。 之前评测最头疼的并不是准确率,是多页文档的工作流。所有模型都是逐页处理。 每一页清空一次记忆,再用外部调度器拼接结果。 本质上是个for-loop (循环),并不是真正的长程理解。 而百度这次开源的Unlimited OCR,解法完全不同。 它不逐页处理。 一次前向推理,几十页文档直接转录完。 核心卖点就一句话:One-Shot Long-Horizon Parsing(单次长时解析),也就是说句话说:无需大规模标注数据,低成本实现长文本深度句法理解,适配大语言模型少样本能力。 一张图或者一本多页PDF,直接扔进去就能一次性解析完,不用再切成小块反复跑。这特么是真的爽啊! 据说这个模型灵感来源很有意思,人类抄书的时候,不会把整本书都记在脑子里。 只关注三个点:原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。 近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。 Unlimited OCR的核心机制R-SWA,参考滑动窗口注意力,就是模拟这个过程。 每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文,一次推理几十页。KV Cache大小恒定,不随文档长度增长。 这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。 现在越来越清楚:只要上下文够长、模型够强,一镜到底反而更高效、更准确。 技术报告的写法也很有意思,故事性极强,想法激进。 有种探索者的气质,这种风格此前都是DeepSeek技术报告的专属标签。 然后事情就开始变得有趣了。 翻了下技术报告的核心贡献者。 三位中,两个人用真名。 唯独技术总监挂了个两字母缩写YY。YY是谁? 顺着线索往回找下看看? GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。 这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。 里面提及DeepSeek OCR的部分,语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。 国内OCR圈也不算太大哈。 能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人,一只手数得过来。 我们再看看另一外个细节哈。 2026年4月24日,DeepSeek-V4正式发布。58页技术报告末尾,近300个名字按字母顺序排列。 其中有10个名字旁边标注了一个小小的星号:已离职。 从2025年下半年到2026年初,不到半年,DeepSeek走了五个人。 他们去了哪。YY是谁。报告没直说,但越读越觉得答案在字里行间。 也明显看出来百度走最近的路子确实不一样了,你可要知道一直最强的OCR 莫属于他们啊,几乎没有什么对手啊! 从PaddleOCR到这次的Unlimited OCR,能感觉到在往一个更前沿的方向走。 这更新迭代速度,这人才储备的能力,以及发展方向,未来可期。 不管八卦,单论技术。一镜到底的长文档OCR这个方向确实是对的。 项目、模型都是开源,感兴趣的自己试试地址评论区。
查看原文
查看缓存全文

缓存时间: 2026/06/23 14:10

卧槽,这一波直接把DeepSeek的“墙角挖到了啊”!

昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。

这个OCR模型直接与传统的OCR模型完全不同! 光着速度和精准度真的就无敌了~~

先说说背景,熟悉的朋友都知道,我最近做过几次OCR评测(可以翻阅我的前面文章),测过18个文档、6类场景,搭过本地工作流。对OCR的能力边界,算是有点体感。

之前评测最头疼的并不是准确率,是多页文档的工作流。所有模型都是逐页处理。

每一页清空一次记忆,再用外部调度器拼接结果。 本质上是个for-loop (循环),并不是真正的长程理解。

而百度这次开源的Unlimited OCR,解法完全不同。 它不逐页处理。

一次前向推理,几十页文档直接转录完。

核心卖点就一句话:One-Shot Long-Horizon Parsing(单次长时解析),也就是说句话说:无需大规模标注数据,低成本实现长文本深度句法理解,适配大语言模型少样本能力。

一张图或者一本多页PDF,直接扔进去就能一次性解析完,不用再切成小块反复跑。这特么是真的爽啊!

据说这个模型灵感来源很有意思,人类抄书的时候,不会把整本书都记在脑子里。

只关注三个点:原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。 近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。

Unlimited OCR的核心机制R-SWA,参考滑动窗口注意力,就是模拟这个过程。

每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文,一次推理几十页。KV Cache大小恒定,不随文档长度增长。

这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。

现在越来越清楚:只要上下文够长、模型够强,一镜到底反而更高效、更准确。

技术报告的写法也很有意思,故事性极强,想法激进。 有种探索者的气质,这种风格此前都是DeepSeek技术报告的专属标签。

然后事情就开始变得有趣了。

翻了下技术报告的核心贡献者。 三位中,两个人用真名。 唯独技术总监挂了个两字母缩写YY。YY是谁?

顺着线索往回找下看看?

GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。

这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。

里面提及DeepSeek OCR的部分,语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。

国内OCR圈也不算太大哈。 能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人,一只手数得过来。

我们再看看另一外个细节哈。

2026年4月24日,DeepSeek-V4正式发布。58页技术报告末尾,近300个名字按字母顺序排列。

其中有10个名字旁边标注了一个小小的星号:已离职。 从2025年下半年到2026年初,不到半年,DeepSeek走了五个人。

他们去了哪。YY是谁。报告没直说,但越读越觉得答案在字里行间。

也明显看出来百度走最近的路子确实不一样了,你可要知道一直最强的OCR 莫属于他们啊,几乎没有什么对手啊!

从PaddleOCR到这次的Unlimited OCR,能感觉到在往一个更前沿的方向走。

这更新迭代速度,这人才储备的能力,以及发展方向,未来可期。

不管八卦,单论技术。一镜到底的长文档OCR这个方向确实是对的。

项目、模型都是开源,感兴趣的自己试试地址评论区。

Berryxia.AI (@berryxia): 这速度真特么离谱啊!卧槽!

最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。

而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window Attention)。

它让模型在解码时KV Cache保持恒定,不会随着文档页数增加而爆炸式增长。

相似文章

@rionaifantasy: 逆天了!34.5M 参数的 OCR,凭什么能赢过 235B 大模型? 说个离大谱的事,我以前一直以为 OCR 的未来一定会被越来越大的多模态大模型吃掉。 但看完百度文心这次发布的 PP-OCRv6,我有所改观了。 因为它走的不是“继续堆参…

X AI KOLs Timeline

百度文心发布 PP-OCRv6,提供 Tiny/Small/Medium 三档模型,支持 50 多种语言;其中 Tiny 版仅 1.5MB 可在浏览器本地运行,单图预测最快 97ms,证明小型专用模型可在 OCR 任务上超越大模型。