@DailyDoseOfDS_:在您自己的语言上微调DeepSeek-OCR!(100%本地)大多数视觉模型将文档视为巨大的序列…

X AI KOLs Timeline 模型

摘要

DeepSeek-OCR是一个3B参数的视觉模型,使用上下文光学压缩进行高效的文档处理。使用Unsloth在波斯语文本上进行微调,字符错误率降低了88.26%,全部开源且可在单GPU上运行。

在您自己的语言上微调DeepSeek-OCR! (100%本地) 大多数视觉模型将文档视为巨大的token序列,使得长上下文处理变得昂贵且缓慢。 DeepSeek-OCR使用上下文光学压缩将2D布局转换为视觉token,从而能够高效处理复杂文档。 它是一个3B参数的视觉模型,在使用的视觉token比基于文本的LLM少10倍的情况下,达到了97%的精度。 实际上,您可以轻松地在单GPU上针对特定用例进行微调。 我们使用Unsloth在波斯语文本上进行了这个实验,字符错误率改善了88.26%。 ↳ 基础模型:149%字符错误率(CER) ↳ 微调模型:60% CER(准确率提高57%) ↳ 训练时间:在单GPU上60步 波斯语只是测试案例。您可以替换为您自己的数据集,适用于任何语言、文档类型或特定领域。 我们已在下一篇推文中分享了完整指南,包括代码、笔记本和环境设置,只需一键即可运行。 一切都是100%开源!
查看原文
查看缓存全文

缓存时间: 2026/06/08 15:26

在您自己的语言上微调 DeepSeek-OCR!

(完全本地运行)

大多数视觉模型将文档视为海量 token 序列,导致长上下文处理既昂贵又缓慢。

DeepSeek-OCR 采用上下文光学压缩,将二维布局转换为视觉 token,从而实现对复杂文档的高效处理。

它是一个拥有 3B 参数的视觉模型,精度达到 97%,同时使用的视觉 token 比基于文本的 LLM 少 10 倍。

实际上,您可以在单张 GPU 上轻松针对自己的特定用例进行微调。

我们使用 Unsloth 对波斯语文本进行了这项实验,字符错误率改善了 88.26%。

↳ 基础模型:149% 字符错误率(CER) ↳ 微调模型:60% CER(精确度提升 57%) ↳ 训练时间:在单张 GPU 上运行 60 步

波斯语只是测试案例。您可以替换为自己的数据集,适用于任何语言、文档类型或特定领域。

我们已将完整指南分享在下一篇推文中,包括代码、笔记本和环境设置,可一键运行。

所有内容均 100% 开源!

技术栈:

  • @UnslothAI 用于运行和微调模型
  • @LightningAI 环境用于托管和部署

在此处查找代码和环境设置:

相似文章

使用合成数据构建快速多语言OCR模型

Hugging Face Blog

NVIDIA推出Nemotron OCR v2,一个使用合成数据生成技术构建的快速多语言OCR模型。该模型通过采用统一的基于FOTS的架构,在检测、识别和关系组件之间实现特征复用,在单个A100 GPU上达到34.7页/秒的性能。

我在家运行了(更快的)DeepSeek V4 Pro

Reddit r/LocalLLaMA

用户报告成功使用 ktransformers 在本地运行 DeepSeek V4 Pro 模型,并分享了在不同上下文深度下的详细基准测试结果,展示了改进的推理速度。