@Fenng: HuggingFace、GitHub 四榜登顶,仅 5 天 Star 破万,百度 Unlimited OCR 跻身增长最快开源项目之一。 前两天时间线里看到不少人在说百度发布的 Unlimited-OCR。 其实 OCR 是百度的传统优势…
摘要
百度发布的 Unlimited-OCR 开源项目在 HuggingFace 和 GitHub 四榜登顶,5 天内 Star 破万。该模型采用 MoE 架构(3B 总参数、570M 激活参数),在长文档连续识别能力上表现突出,灵感来自人类抄书方式,也为大模型长期记忆管理提供了新思路。
查看缓存全文
缓存时间: 2026/06/29 06:30
HuggingFace、GitHub 四榜登顶,仅 5 天 Star 破万,百度 Unlimited OCR 跻身增长最快开源项目之一。
前两天时间线里看到不少人在说百度发布的 Unlimited-OCR。
其实 OCR 是百度的传统优势,有技术积累,PaddleOCR 的口碑一直很好。
这次的 Unlimited-OCR 模型规模并不大:总参数 3B、570M 激活参数的 MoE,但在几十页文档连续识别能力上特别强……据说灵感来自像人类一样抄书,不仅提升了 OCR 在长文档场景下的可用性,也为大模型长期记忆管理提供了新的技术思路。这对很多有技术场景需求的团队是个好消息啊。
基于 DeepSeek-OCR 的 DeepEncoder,把 DeepSeek-OCR 路线里长文档解析的工程瓶颈往前推了一步。论文作者名单里那个「YY」也引发了一些猜测,有人怀疑是 DeepSeek-OCR 核心作者魏浩然,未经证实。。
相似文章
@GoSailGlobal: 现在的 OCR 处理几十页文档,是逐页跑的 每翻一页,记忆清零一次 百度今天悄悄在 GitHub 和 HuggingFace 开源了一个模型,叫 Unlimited OCR,它的灵感,来自人类抄书: - 你抄一本书,不会每写一个字就把前面…
百度开源了 Unlimited OCR 模型,采用参考滑动窗口注意力(R-SWA)机制,实现了对长达 32K 上下文的一次性文档解析,无需逐页推理。
@berryxia: 卧槽,这一波直接把DeepSeek的“墙角挖到了啊”! 昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。 这个OCR模型直接与传统的OCR模型完全不同! 光着速度和精准度真的就无敌了~~ 先说说背景,熟悉…
百度开源了Unlimited OCR模型,采用R-SWA注意力机制,可一次性处理数百页文档,无需分页,KV Cache恒定。该模型创新性地借鉴了人类抄书时的注意力模式,并与DeepSeek OCR有技术渊源,引发了对人才流动的关注。
@geekbb: 百度开源的视觉语言模型 OCR 项目,在 DeepSeek-OCR 基础上做了升级,主打一次性解析超长文档。模型有两种推理模式:gundam 模式用来对付单张图里的密集文字,base 模式处理多页或 PDF。 https://github…
百度开源了视觉语言模型Unlimited-OCR,基于DeepSeek-OCR升级,支持一次性解析超长文档,提供gundam(单图密集文字)和base(多页/PDF)两种推理模式。
@rionaifantasy: 逆天了!34.5M 参数的 OCR,凭什么能赢过 235B 大模型? 说个离大谱的事,我以前一直以为 OCR 的未来一定会被越来越大的多模态大模型吃掉。 但看完百度文心这次发布的 PP-OCRv6,我有所改观了。 因为它走的不是“继续堆参…
百度文心发布 PP-OCRv6,提供 Tiny/Small/Medium 三档模型,支持 50 多种语言;其中 Tiny 版仅 1.5MB 可在浏览器本地运行,单图预测最快 97ms,证明小型专用模型可在 OCR 任务上超越大模型。
@manateelazycat: 百度这个 AI 黄埔军校来了大神? 在 DeepSeek OCR 基础上开源的Unlimited OCR 出手就是王炸 在它自己的公布数据里,OmniDocBench v1.5 取得了 93.23 分,超过了 DeepSeek OCR 和…
开源OCR模型Unlimited OCR基于DeepSeek OCR,仅3B参数便在OmniDocBench v1.5上取得93.23分,超越DeepSeek OCR和Gemini 2.5等对手。