ocr

#ocr

18 款 LLM OCR 实测（7k+ 次调用）：便宜/旧模型常吊打旗舰，完整数据集+框架已开源 [R]

Reddit r/MachineLearning ↗ · 2026-04-23

对 18 款大模型在 OCR 任务上的全面评测（7k+ 次调用）发现，便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率，数据集与评测框架已完全开源。

0 人收藏 0 人点赞

#ocr

本地漫画翻译器，内置 LLM，Rust 编写并集成 llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-04-22

Koharu 是一款开源的 Rust 漫画/图片翻译工具，融合目标检测、视觉 LLM OCR、版面分析与图像修复，并集成 llama.cpp，支持 Gemma 4 与 Qwen3.5 系列模型。

0 人收藏 0 人点赞

#ocr

Gemma 4 视觉

Reddit r/LocalLLaMA ↗ · 2026-04-21

Gemma 4 的视觉表现受默认 token 预算过低拖累；在 llama.cpp 中将 --image-max-tokens 提到 2240，可解锁顶尖 OCR 与细节识别，代价是额外占用约 14 GB 显存。

0 人收藏 0 人点赞

#ocr

@ycombinator：LLM 在人机协同场景中表现出色，却在确定性开发者任务上屡屡翻车。@interfaze_ai 推出的新 AI…

X AI KOLs Following ↗ · 2026-04-20 缓存

Interfaze AI 发布专用模型，在 OCR、目标检测、网页抓取、语音转文字、分类等确定性开发者任务上全面超越通用 LLM。

0 人收藏 0 人点赞

#ocr

@techNmak：1.7B 参数轻量 VLM，在 OmniDocBench 上碾压巨头的 OCR 新王者

X AI KOLs Timeline ↗ · 2026-04-20 缓存

仅 1.7B 参数的多语言文档解析器 dots.ocr，用轻量体积实现 SOTA，证明文档理解无需巨无霸模型。

0 人收藏 0 人点赞

#ocr

SGOCR：一个空间定位的、以OCR为核心的流水线与V1数据集 [P]

Reddit r/MachineLearning ↗ · 2026-04-20

大家好！我一直在独立研究和开发小巧但强大的视觉语言模型（VLM），并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中，而是试图让模型推理文本或场景本身。这促使我投入两周的副项目，创建了SGOCR，一个开源数据集流水线，用于生成空间定位的、以OCR为核心的VQA元组，包含大量丰富的元数据以支持多样化的VLM训练策

0 人收藏 0 人点赞

#ocr