ocr

标签

Cards List
#ocr

18 款 LLM OCR 实测(7k+ 次调用):便宜/旧模型常吊打旗舰,完整数据集+框架已开源 [R]

Reddit r/MachineLearning · 2026-04-23

对 18 款大模型在 OCR 任务上的全面评测(7k+ 次调用)发现,便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率,数据集与评测框架已完全开源。

0 人收藏 0 人点赞
#ocr

本地漫画翻译器,内置 LLM,Rust 编写并集成 llama.cpp

Reddit r/LocalLLaMA · 2026-04-22

Koharu 是一款开源的 Rust 漫画/图片翻译工具,融合目标检测、视觉 LLM OCR、版面分析与图像修复,并集成 llama.cpp,支持 Gemma 4 与 Qwen3.5 系列模型。

0 人收藏 0 人点赞
#ocr

Gemma 4 视觉

Reddit r/LocalLLaMA · 2026-04-21

Gemma 4 的视觉表现受默认 token 预算过低拖累;在 llama.cpp 中将 --image-max-tokens 提到 2240,可解锁顶尖 OCR 与细节识别,代价是额外占用约 14 GB 显存。

0 人收藏 0 人点赞
#ocr

@ycombinator:LLM 在人机协同场景中表现出色,却在确定性开发者任务上屡屡翻车。@interfaze_ai 推出的新 AI…

X AI KOLs Following · 2026-04-20 缓存

Interfaze AI 发布专用模型,在 OCR、目标检测、网页抓取、语音转文字、分类等确定性开发者任务上全面超越通用 LLM。

0 人收藏 0 人点赞
#ocr

@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者

X AI KOLs Timeline · 2026-04-20 缓存

仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。

0 人收藏 0 人点赞
#ocr

SGOCR:一个空间定位的、以OCR为核心的流水线与V1数据集 [P]

Reddit r/MachineLearning · 2026-04-20

大家好!我一直在独立研究和开发小巧但强大的视觉语言模型(VLM),并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中,而是试图让模型推理文本或场景本身。这促使我投入两周的副项目,创建了SGOCR,一个开源数据集流水线,用于生成空间定位的、以OCR为核心的VQA元组,包含大量丰富的元数据以支持多样化的VLM训练策

0 人收藏 0 人点赞
#ocr

使用合成数据构建快速多语言OCR模型

Hugging Face Blog · 2026-04-17 缓存

NVIDIA推出Nemotron OCR v2,一个使用合成数据生成技术构建的快速多语言OCR模型。该模型通过采用统一的基于FOTS的架构,在检测、识别和关系组件之间实现特征复用,在单个A100 GPU上达到34.7页/秒的性能。

0 人收藏 0 人点赞
#ocr

MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型

Papers with Code Trending · 2025-09-26 缓存

MinerU2.5 是一个拥有 12 亿参数的视觉-语言模型,通过采用由粗到细的解析策略,在保持高计算效率的同时实现了最先进的文档解析准确率。

0 人收藏 0 人点赞
#ocr

SmolDocling:一种超紧凑的端到端多模态文档转换视觉语言模型

Papers with Code Trending · 2025-03-14 缓存

SmolDocling 是一款紧凑型 2.56 亿参数视觉语言模型,专为端到端多模态文档转换设计。它引入了一种名为 DocTags 的新型通用标记格式,用于捕获带有位置信息的页面元素,其表现可与体积大 27 倍的模型相媲美。

0 人收藏 0 人点赞
#ocr

paperless-ngx/paperless-ngx

GitHub Trending (daily) · 2026-04-20 缓存

Paperless-ngx 是一个开源文档管理系统,可以数字化和归档纸质文件,并提供全文搜索功能。它是原始 Paperless 和 Paperless-ng 项目的官方继任者,设计为社区驱动的项目。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈