@DailyDoseOfDS_：在您自己的语言上微调DeepSeek-OCR！（100%本地）大多数视觉模型将文档视为巨大的序列…

X AI KOLs Timeline 2026/06/08 09:30 模型

deepseek-ocr fine-tuning ocr vision-model open-source document-processing persian-ocr

摘要

DeepSeek-OCR是一个3B参数的视觉模型，使用上下文光学压缩进行高效的文档处理。使用Unsloth在波斯语文本上进行微调，字符错误率降低了88.26%，全部开源且可在单GPU上运行。

在您自己的语言上微调DeepSeek-OCR！（100%本地）大多数视觉模型将文档视为巨大的token序列，使得长上下文处理变得昂贵且缓慢。 DeepSeek-OCR使用上下文光学压缩将2D布局转换为视觉token，从而能够高效处理复杂文档。它是一个3B参数的视觉模型，在使用的视觉token比基于文本的LLM少10倍的情况下，达到了97%的精度。实际上，您可以轻松地在单GPU上针对特定用例进行微调。我们使用Unsloth在波斯语文本上进行了这个实验，字符错误率改善了88.26%。 ↳ 基础模型：149%字符错误率（CER） ↳ 微调模型：60% CER（准确率提高57%） ↳ 训练时间：在单GPU上60步波斯语只是测试案例。您可以替换为您自己的数据集，适用于任何语言、文档类型或特定领域。我们已在下一篇推文中分享了完整指南，包括代码、笔记本和环境设置，只需一键即可运行。一切都是100%开源！

查看原文

查看缓存全文

缓存时间: 2026/06/08 15:26

在您自己的语言上微调 DeepSeek-OCR！

（完全本地运行）

大多数视觉模型将文档视为海量 token 序列，导致长上下文处理既昂贵又缓慢。

DeepSeek-OCR 采用上下文光学压缩，将二维布局转换为视觉 token，从而实现对复杂文档的高效处理。

它是一个拥有 3B 参数的视觉模型，精度达到 97%，同时使用的视觉 token 比基于文本的 LLM 少 10 倍。

实际上，您可以在单张 GPU 上轻松针对自己的特定用例进行微调。

我们使用 Unsloth 对波斯语文本进行了这项实验，字符错误率改善了 88.26%。

↳ 基础模型：149% 字符错误率（CER） ↳ 微调模型：60% CER（精确度提升 57%） ↳ 训练时间：在单张 GPU 上运行 60 步

波斯语只是测试案例。您可以替换为自己的数据集，适用于任何语言、文档类型或特定领域。

我们已将完整指南分享在下一篇推文中，包括代码、笔记本和环境设置，可一键运行。

所有内容均 100% 开源！

技术栈：

@UnslothAI 用于运行和微调模型
@LightningAI 环境用于托管和部署

在此处查找代码和环境设置：

@DailyDoseOfDS_：在您自己的语言上微调DeepSeek-OCR！（100%本地）大多数视觉模型将文档视为巨大的序列…

相似文章

@Saboo_Shubham_：开源 AI 势头强劲。DeepSeek v4 Flash 是一款准前沿模型，拥有高达 100 万的上下文窗口。它可本地…

@techNmak：1.7B 参数轻量 VLM，在 OmniDocBench 上碾压巨头的 OCR 新王者

PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

使用合成数据构建快速多语言OCR模型

我在家运行了（更快的）DeepSeek V4 Pro

提交意见反馈