@KaichaoYou:来自百度的一款出色的OCR模型!如果你看到OCR模型有多受欢迎,你会感到惊讶,它们有时甚至比顶尖的LLM还更受欢迎……
摘要
百度的Unlimited-OCR模型采用了Reference Sliding Window Attention技术,现已获得vLLM支持,能够以恒定内存消耗高效地一次性解析整本书籍。
查看缓存全文
缓存时间: 2026/06/29 02:22
一个来自百度的优秀OCR模型! 如果你看到OCR模型有多受欢迎,可能会大吃一惊——有时它们甚至比顶级LLM还要热门!😜
vLLM (@vllm_project): 🎉 百度(@Baidu_Inc)出品的Unlimited-OCR现已可在vLLM中运行。通过参考滑动窗口注意力(R-SWA),实现恒定KV缓存的整本书籍一次性解析。
🧠 R-SWA在整个解码过程中保持KV缓存固定——无论输出多长,都不会出现内存膨胀或速度下降。
相似文章
@BaiduAI_News: 我们正在开源Unlimited OCR——专为一次性读取长文档而构建。总参数3B,仅500M激活…
百度开源Unlimited OCR,一个3B参数模型(500M激活参数),使用Reference Sliding Window Attention(R-SWA)一次性读取长文档,在OmniDocBench上取得最先进的SOTA结果。
baidu/Unlimited-OCR
百度发布了Unlimited-OCR,一种用于一次性长程文档解析的新模型,基于Deepseek-OCR构建。它支持通过Hugging Face Transformers和SGLang进行单图像和多页/PDF解析。
Unlimited OCR: 一次性长程解析
百度发布Unlimited-OCR,这是一个基于Deepseek-OCR构建的开源模型,用于一次性长程文档解析,支持单张图片、多页文档和PDF。
@thesupermanmx: 中国刚刚开源了一款OCR模型,可一次性转录整本书。它名为Unlimited OCR。构建于…
中国开源了Unlimited OCR,这是一款基于DeepSeek OCR的OCR模型,可以一次性转录整本书,内存使用恒定,在标准解析基准上达到93%的准确率。
@vanstriendaniel: OCR模型又来了!百度公司的Unlimited-OCR是其中比较有趣的一个。你可以无需太多…
这篇文章展示了如何在Hugging Face Jobs上将百度的Unlimited-OCR模型作为临时的、兼容OpenAI的端点提供服务,支持多页文档解析,具有表格转HTML和公式转LaTeX提取等功能。