@DailyDoseOfDS_:在您自己的语言上微调DeepSeek-OCR!(100%本地)大多数视觉模型将文档视为巨大的序列…
摘要
DeepSeek-OCR是一个3B参数的视觉模型,使用上下文光学压缩进行高效的文档处理。使用Unsloth在波斯语文本上进行微调,字符错误率降低了88.26%,全部开源且可在单GPU上运行。
查看缓存全文
缓存时间: 2026/06/08 15:26
在您自己的语言上微调 DeepSeek-OCR!
(完全本地运行)
大多数视觉模型将文档视为海量 token 序列,导致长上下文处理既昂贵又缓慢。
DeepSeek-OCR 采用上下文光学压缩,将二维布局转换为视觉 token,从而实现对复杂文档的高效处理。
它是一个拥有 3B 参数的视觉模型,精度达到 97%,同时使用的视觉 token 比基于文本的 LLM 少 10 倍。
实际上,您可以在单张 GPU 上轻松针对自己的特定用例进行微调。
我们使用 Unsloth 对波斯语文本进行了这项实验,字符错误率改善了 88.26%。
↳ 基础模型:149% 字符错误率(CER) ↳ 微调模型:60% CER(精确度提升 57%) ↳ 训练时间:在单张 GPU 上运行 60 步
波斯语只是测试案例。您可以替换为自己的数据集,适用于任何语言、文档类型或特定领域。
我们已将完整指南分享在下一篇推文中,包括代码、笔记本和环境设置,可一键运行。
所有内容均 100% 开源!
技术栈:
- @UnslothAI 用于运行和微调模型
- @LightningAI 环境用于托管和部署
在此处查找代码和环境设置:
相似文章
@Saboo_Shubham_:开源 AI 势头强劲。DeepSeek v4 Flash 是一款准前沿模型,拥有高达 100 万的上下文窗口。它可本地…
文章重点介绍了 DeepSeek v4 Flash,这是一款拥有 100 万上下文窗口的准前沿开源模型,并指出其能够通过 2 比特量化在 128GB 内存的 Mac 上本地运行。
@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力
PaddleOCR-VL 是一个紧凑的 0.9B 视觉语言模型,通过集成 NaViT 风格的动态分辨率与 ERNIE 语言模型,在多语言文档解析和元素识别方面实现了最先进的性能。
使用合成数据构建快速多语言OCR模型
NVIDIA推出Nemotron OCR v2,一个使用合成数据生成技术构建的快速多语言OCR模型。该模型通过采用统一的基于FOTS的架构,在检测、识别和关系组件之间实现特征复用,在单个A100 GPU上达到34.7页/秒的性能。
我在家运行了(更快的)DeepSeek V4 Pro
用户报告成功使用 ktransformers 在本地运行 DeepSeek V4 Pro 模型,并分享了在不同上下文深度下的详细基准测试结果,展示了改进的推理速度。