ocr

#ocr

@berryxia: 兄弟们，我后背没有发凉。但，我看到这个模型架构后高兴不已！大家还在疯狂堆参数、卷通用大模型的时候，Interfaze直接用一个全新混合架构。把OCR、视觉、STT、结构化输出这些确定性任务的准确率干到了吊打Gemini-3-Flas…

X AI KOLs Timeline ↗ · 22小时前缓存

Interfaze introduces a new hybrid AI model architecture combining DNN/CNN encoders with transformers to achieve superior accuracy and cost-efficiency for deterministic tasks like OCR, vision, and STT compared to generalist models.

0 人收藏 0 人点赞

#ocr

我们测试了用于车牌识别 OCR 的超分辨率预处理，结果毫无效果

Hacker News Top ↗ · 22小时前缓存

Wink Engineering 评估了将神经超分辨率作为车牌识别 OCR 预处理手段的有效性，结论是它未能提高准确率，且与直接在低分辨率数据上训练相比，往往导致识别出幻觉字符。

0 人收藏 0 人点赞

#ocr

@jerryjliu0: LiteParse 是为 AI 智能体设计的最佳开源、无模型文档解析器。支持解析 50 多种文档类型，并…

X AI KOLs Following ↗ · 昨天缓存

LlamaIndex 发布了 liteparse-server，这是一个可自托管、无模型的 HTTP API，能够以高空间保真度和隐私保护能力解析多种多样的文档类型。

1 人收藏 1 人点赞

#ocr

@itsclelia: 你真的拥有你的文档解析基础设施吗？在 @llama_index，我们想让它更简单，所以构建了…

X AI KOLs Following ↗ · 昨天缓存

LlamaIndex 推出了 liteparse-server，这是一个开源、可自托管的 HTTP 后端，用于解析 PDF、图像和 Office 文档，支持空间布局提取、OCR 和截图生成，专为 AI 和数据工作流设计。

0 人收藏 0 人点赞

#ocr

@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档，它就是 dots-ocr。一个处理文本、表格等的系统。

X AI KOLs Timeline ↗ · 昨天缓存

本文介绍了 dots-ocr，这是一个拥有 17 亿参数的模型，能够在超过 100 种语言中解析文档中的文本、表格、公式和图像，而无需单独的 OCR 处理流程。

0 人收藏 0 人点赞

#ocr

@aaron_epstein: 新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai

X AI KOLs Following ↗ · 昨天

来自interfaze_ai的新AI模型声称在OCR、视觉和语音转文字任务上超越领先模型（sonnet 4.6、gemini 3 flash、gpt 5.4 mini）。

0 人收藏 0 人点赞

#ocr

18 款 LLM OCR 实测（7k+ 次调用）：便宜/旧模型常吊打旗舰，完整数据集+框架已开源 [R]

Reddit r/MachineLearning ↗ · 2026-04-23

对 18 款大模型在 OCR 任务上的全面评测（7k+ 次调用）发现，便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率，数据集与评测框架已完全开源。

0 人收藏 0 人点赞

#ocr

本地漫画翻译器，内置 LLM，Rust 编写并集成 llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-04-22

Koharu 是一款开源的 Rust 漫画/图片翻译工具，融合目标检测、视觉 LLM OCR、版面分析与图像修复，并集成 llama.cpp，支持 Gemma 4 与 Qwen3.5 系列模型。

0 人收藏 0 人点赞

#ocr

Gemma 4 视觉

Reddit r/LocalLLaMA ↗ · 2026-04-21

Gemma 4 的视觉表现受默认 token 预算过低拖累；在 llama.cpp 中将 --image-max-tokens 提到 2240，可解锁顶尖 OCR 与细节识别，代价是额外占用约 14 GB 显存。

0 人收藏 0 人点赞

#ocr

@ycombinator：LLM 在人机协同场景中表现出色，却在确定性开发者任务上屡屡翻车。@interfaze_ai 推出的新 AI…

X AI KOLs Following ↗ · 2026-04-20 缓存

Interfaze AI 发布专用模型，在 OCR、目标检测、网页抓取、语音转文字、分类等确定性开发者任务上全面超越通用 LLM。

0 人收藏 0 人点赞

#ocr

@techNmak：1.7B 参数轻量 VLM，在 OmniDocBench 上碾压巨头的 OCR 新王者

X AI KOLs Timeline ↗ · 2026-04-20 缓存

仅 1.7B 参数的多语言文档解析器 dots.ocr，用轻量体积实现 SOTA，证明文档理解无需巨无霸模型。

0 人收藏 0 人点赞

#ocr

SGOCR：一个空间定位的、以OCR为核心的流水线与V1数据集 [P]

Reddit r/MachineLearning ↗ · 2026-04-20

大家好！我一直在独立研究和开发小巧但强大的视觉语言模型（VLM），并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中，而是试图让模型推理文本或场景本身。这促使我投入两周的副项目，创建了SGOCR，一个开源数据集流水线，用于生成空间定位的、以OCR为核心的VQA元组，包含大量丰富的元数据以支持多样化的VLM训练策

0 人收藏 0 人点赞

#ocr