@Fenng: HuggingFace、GitHub 四榜登顶,仅 5 天 Star 破万,百度 Unlimited OCR 跻身增长最快开源项目之一。 前两天时间线里看到不少人在说百度发布的 Unlimited-OCR。 其实 OCR 是百度的传统优势…

X AI KOLs Following 模型

摘要

百度发布的 Unlimited-OCR 开源项目在 HuggingFace 和 GitHub 四榜登顶,5 天内 Star 破万。该模型采用 MoE 架构(3B 总参数、570M 激活参数),在长文档连续识别能力上表现突出,灵感来自人类抄书方式,也为大模型长期记忆管理提供了新思路。

HuggingFace、GitHub 四榜登顶,仅 5 天 Star 破万,百度 Unlimited OCR 跻身增长最快开源项目之一。 前两天时间线里看到不少人在说百度发布的 Unlimited-OCR。 其实 OCR 是百度的传统优势,有技术积累,PaddleOCR 的口碑一直很好。 这次的 Unlimited-OCR 模型规模并不大:总参数 3B、570M 激活参数的 MoE,但在几十页文档连续识别能力上特别强……据说灵感来自像人类一样抄书,不仅提升了 OCR 在长文档场景下的可用性,也为大模型长期记忆管理提供了新的技术思路。这对很多有技术场景需求的团队是个好消息啊。 基于 DeepSeek-OCR 的 DeepEncoder,把 DeepSeek-OCR 路线里长文档解析的工程瓶颈往前推了一步。论文作者名单里那个「YY」也引发了一些猜测,有人怀疑是 DeepSeek-OCR 核心作者魏浩然,未经证实。。
查看原文
查看缓存全文

缓存时间: 2026/06/29 06:30

HuggingFace、GitHub 四榜登顶,仅 5 天 Star 破万,百度 Unlimited OCR 跻身增长最快开源项目之一。

前两天时间线里看到不少人在说百度发布的 Unlimited-OCR。

其实 OCR 是百度的传统优势,有技术积累,PaddleOCR 的口碑一直很好。

这次的 Unlimited-OCR 模型规模并不大:总参数 3B、570M 激活参数的 MoE,但在几十页文档连续识别能力上特别强……据说灵感来自像人类一样抄书,不仅提升了 OCR 在长文档场景下的可用性,也为大模型长期记忆管理提供了新的技术思路。这对很多有技术场景需求的团队是个好消息啊。

基于 DeepSeek-OCR 的 DeepEncoder,把 DeepSeek-OCR 路线里长文档解析的工程瓶颈往前推了一步。论文作者名单里那个「YY」也引发了一些猜测,有人怀疑是 DeepSeek-OCR 核心作者魏浩然,未经证实。。

相似文章

@berryxia: 卧槽,这一波直接把DeepSeek的“墙角挖到了啊”! 昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。 这个OCR模型直接与传统的OCR模型完全不同! 光着速度和精准度真的就无敌了~~ 先说说背景,熟悉…

X AI KOLs Timeline

百度开源了Unlimited OCR模型,采用R-SWA注意力机制,可一次性处理数百页文档,无需分页,KV Cache恒定。该模型创新性地借鉴了人类抄书时的注意力模式,并与DeepSeek OCR有技术渊源,引发了对人才流动的关注。

@rionaifantasy: 逆天了!34.5M 参数的 OCR,凭什么能赢过 235B 大模型? 说个离大谱的事,我以前一直以为 OCR 的未来一定会被越来越大的多模态大模型吃掉。 但看完百度文心这次发布的 PP-OCRv6,我有所改观了。 因为它走的不是“继续堆参…

X AI KOLs Timeline

百度文心发布 PP-OCRv6,提供 Tiny/Small/Medium 三档模型,支持 50 多种语言;其中 Tiny 版仅 1.5MB 可在浏览器本地运行,单图预测最快 97ms,证明小型专用模型可在 OCR 任务上超越大模型。