ocr

标签

Cards List
#ocr

@berryxia: 兄弟们,我后背没有发凉。 但,我看到这个模型架构后高兴不已! 大家还在疯狂堆参数、卷通用大模型的时候,Interfaze直接用一个全新混合架构。 把OCR、视觉、STT、结构化输出这些确定性任务的准确率干到了吊打Gemini-3-Flas…

X AI KOLs Timeline · 22小时前 缓存

Interfaze introduces a new hybrid AI model architecture combining DNN/CNN encoders with transformers to achieve superior accuracy and cost-efficiency for deterministic tasks like OCR, vision, and STT compared to generalist models.

0 人收藏 0 人点赞
#ocr

我们测试了用于车牌识别 OCR 的超分辨率预处理,结果毫无效果

Hacker News Top · 22小时前 缓存

Wink Engineering 评估了将神经超分辨率作为车牌识别 OCR 预处理手段的有效性,结论是它未能提高准确率,且与直接在低分辨率数据上训练相比,往往导致识别出幻觉字符。

0 人收藏 0 人点赞
#ocr

@jerryjliu0: LiteParse 是为 AI 智能体设计的最佳开源、无模型文档解析器。支持解析 50 多种文档类型,并…

X AI KOLs Following · 昨天 缓存

LlamaIndex 发布了 liteparse-server,这是一个可自托管、无模型的 HTTP API,能够以高空间保真度和隐私保护能力解析多种多样的文档类型。

1 人收藏 1 人点赞
#ocr

@itsclelia: 你真的拥有你的文档解析基础设施吗?在 @llama_index,我们想让它更简单,所以构建了…

X AI KOLs Following · 昨天 缓存

LlamaIndex 推出了 liteparse-server,这是一个开源、可自托管的 HTTP 后端,用于解析 PDF、图像和 Office 文档,支持空间布局提取、OCR 和截图生成,专为 AI 和数据工作流设计。

0 人收藏 0 人点赞
#ocr

@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档,它就是 dots-ocr。一个处理文本、表格等的系统。

X AI KOLs Timeline · 昨天 缓存

本文介绍了 dots-ocr,这是一个拥有 17 亿参数的模型,能够在超过 100 种语言中解析文档中的文本、表格、公式和图像,而无需单独的 OCR 处理流程。

0 人收藏 0 人点赞
#ocr

@aaron_epstein: 新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai

X AI KOLs Following · 昨天

来自interfaze_ai的新AI模型声称在OCR、视觉和语音转文字任务上超越领先模型(sonnet 4.6、gemini 3 flash、gpt 5.4 mini)。

0 人收藏 0 人点赞
#ocr

18 款 LLM OCR 实测(7k+ 次调用):便宜/旧模型常吊打旗舰,完整数据集+框架已开源 [R]

Reddit r/MachineLearning · 2026-04-23

对 18 款大模型在 OCR 任务上的全面评测(7k+ 次调用)发现,便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率,数据集与评测框架已完全开源。

0 人收藏 0 人点赞
#ocr

本地漫画翻译器,内置 LLM,Rust 编写并集成 llama.cpp

Reddit r/LocalLLaMA · 2026-04-22

Koharu 是一款开源的 Rust 漫画/图片翻译工具,融合目标检测、视觉 LLM OCR、版面分析与图像修复,并集成 llama.cpp,支持 Gemma 4 与 Qwen3.5 系列模型。

0 人收藏 0 人点赞
#ocr

Gemma 4 视觉

Reddit r/LocalLLaMA · 2026-04-21

Gemma 4 的视觉表现受默认 token 预算过低拖累;在 llama.cpp 中将 --image-max-tokens 提到 2240,可解锁顶尖 OCR 与细节识别,代价是额外占用约 14 GB 显存。

0 人收藏 0 人点赞
#ocr

@ycombinator:LLM 在人机协同场景中表现出色,却在确定性开发者任务上屡屡翻车。@interfaze_ai 推出的新 AI…

X AI KOLs Following · 2026-04-20 缓存

Interfaze AI 发布专用模型,在 OCR、目标检测、网页抓取、语音转文字、分类等确定性开发者任务上全面超越通用 LLM。

0 人收藏 0 人点赞
#ocr

@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者

X AI KOLs Timeline · 2026-04-20 缓存

仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。

0 人收藏 0 人点赞
#ocr

SGOCR:一个空间定位的、以OCR为核心的流水线与V1数据集 [P]

Reddit r/MachineLearning · 2026-04-20

大家好!我一直在独立研究和开发小巧但强大的视觉语言模型(VLM),并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中,而是试图让模型推理文本或场景本身。这促使我投入两周的副项目,创建了SGOCR,一个开源数据集流水线,用于生成空间定位的、以OCR为核心的VQA元组,包含大量丰富的元数据以支持多样化的VLM训练策

0 人收藏 0 人点赞
#ocr

使用合成数据构建快速多语言OCR模型

Hugging Face Blog · 2026-04-17 缓存

NVIDIA推出Nemotron OCR v2,一个使用合成数据生成技术构建的快速多语言OCR模型。该模型通过采用统一的基于FOTS的架构,在检测、识别和关系组件之间实现特征复用,在单个A100 GPU上达到34.7页/秒的性能。

0 人收藏 0 人点赞
#ocr

MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型

Papers with Code Trending · 2025-09-26 缓存

MinerU2.5 是一个拥有 12 亿参数的视觉-语言模型,通过采用由粗到细的解析策略,在保持高计算效率的同时实现了最先进的文档解析准确率。

0 人收藏 0 人点赞
#ocr

SmolDocling:一种超紧凑的端到端多模态文档转换视觉语言模型

Papers with Code Trending · 2025-03-14 缓存

SmolDocling 是一款紧凑型 2.56 亿参数视觉语言模型,专为端到端多模态文档转换设计。它引入了一种名为 DocTags 的新型通用标记格式,用于捕获带有位置信息的页面元素,其表现可与体积大 27 倍的模型相媲美。

0 人收藏 0 人点赞
#ocr

paperless-ngx/paperless-ngx

GitHub Trending (daily) · 2026-04-20 缓存

Paperless-ngx 是一个开源文档管理系统,可以数字化和归档纸质文件,并提供全文搜索功能。它是原始 Paperless 和 Paperless-ng 项目的官方继任者,设计为社区驱动的项目。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈