跨时间僧伽罗语OCR：页面级自适应与历时分析

arXiv cs.CL 2026/06/30 04:00 论文

sinhala ocr page-level diachronic fine-tuning low-resource dataset

摘要

本文介绍了 sinhala-ocr-lk-acts-1010，这是首个公开可用的真实场景页面级僧伽罗语OCR数据集，并使用QLoRA对三种视觉语言模型（DeepSeek-OCR V1、DeepSeek-OCR V2、LightOnOCR-2-1B）进行了微调。LightOnOCR-2-1B实现了1.05%的字符错误率（CER），优于开源和商业OCR模型，并在不同时期的退化文档中保持了稳定的性能。

arXiv:2606.29378v1 公告类型：新摘要：僧伽罗语是一种形态丰富的元音附标文字，斯里兰卡约有1600万人使用。迄今为止，还没有公开可用的真实场景页面级僧伽罗语OCR数据集。以往评估僧伽罗语OCR模型的研究均使用人工生成的数据。为弥补这一空白，我们引入了 sinhala-ocr-lk-acts-1010，这是一个包含1,010张页面级图像及其转录文本的注释数据集，这些数据取自1981-1989年和2000-2019年出版的斯里兰卡立法法案，并划分为707个训练样本、101个验证样本和202个测试样本。基于深度学习视觉语言处理的三个模型——DeepSeek-OCR V1、DeepSeek-OCR V2和LightOnOCR-2-1B——使用QLoRA在消费级和云端GPU上进行了8次实验微调。LightOnOCR-2-1B表现最佳，在所有测试样本上实现了1.05%的字符错误率（CER），优于最先进的开源OCR模型，如Surya-OCR（8.84%）和Tesseract v5（10.69%），以及商用OCR模型，如Google Document AI（2.06%）。我们的结果表明，LightOnOCR-2-1B在真实OCR任务中优于其他基线模型，并且在所有印刷时期（即使文档严重退化）都保持了稳定的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:31

# 跨时间僧伽罗语OCR：页面级自适应与历时间分析
来源：https://arxiv.org/html/2606.29378
###### 摘要

僧伽罗语是一种形态丰富的元音附标文字，斯里兰卡约有1600万人使用。迄今为止，尚无公开可用的真实世界页面级僧伽罗语OCR数据集。所有先前评估僧伽罗语OCR模型的研究均使用人工生成的数据。为填补这一空白，我们引入了`sinhala-ocr-lk-acts-1010`，这是一个包含1010张页面级图像及其转录文本的标注数据集，这些资料选自1981-1989年和2000-2019年间出版的斯里兰卡立法法案，分为707个训练样本、101个验证样本和202个测试样本。我们基于深度学习的视觉语言处理模型（即DeepSeek-OCR V1、DeepSeek-OCR V2和LightOnOCR-2-1B）在消费级和云GPU上进行了8次实验，使用QLoRA进行微调。LightOnOCR-2-1B表现最佳，在所有测试样本上实现了1.05%的字符错误率（CER），优于最先进的开源OCR模型（如Surya-OCR的8.84%和Tesseract v5的10.69%）以及商业OCR模型（如Google Document AI的2.06%）。我们的结果表明，LightOnOCR-2-1B在实际OCR任务中优于其他基线，并且在所有印刷时期均保持一致的性能，即使文档严重退化也是如此。

## I. 引言

光学字符识别（OCR）是数字化印刷文档并使其内容可搜索和大规模访问的关键使能技术。正如Jayatilleke和de Silva[11 (https://arxiv.org/html/2606.29378#bib.bib42)]所示，对于低资源和复杂脚本的语言，OCR准确率仍明显低于英语等高资源语言。

僧伽罗语是斯里兰卡的主要官方语言。僧伽罗语的文字是一种元音附标文字，字符多、连字多且字符间相似度高，给OCR引擎带来了挑战。现有研究稳步推进了使用Tesseract处理僧伽罗语字符的OCR引擎开发，以及从政府PDF构建平行语料库的工作[3 (https://arxiv.org/html/2606.29378#bib.bib11),23 (https://arxiv.org/html/2606.29378#bib.bib10)]。最近的基准测试甚至对商业和开源OCR引擎进行了比较，评估其在合成图像上的零样本学习性能[11 (https://arxiv.org/html/2606.29378#bib.bib42),15 (https://arxiv.org/html/2606.29378#bib.bib6)]。然而，所有现有评估都是在合成图像或有限字体集上进行的，并且不存在公开可用的真实印刷僧伽罗语页面级数据集。

页面级视觉语言模型（VLM）通过一次前向传播处理整页图像，从而绕过分步布局检测和分割过程相关的错误，因此非常适合此类挑战[13 (https://arxiv.org/html/2606.29378#bib.bib26),14 (https://arxiv.org/html/2606.29378#bib.bib62)]。基于QLoRA技术的参数高效微调使得数十亿参数VLM的适应成为可能[7 (https://arxiv.org/html/2606.29378#bib.bib49)]，这使在消费级硬件上适配数十亿参数的VLM变得可行，正如Kolavi等人[12 (https://arxiv.org/html/2606.29378#bib.bib2)]最近为低资源印度语系文字所展示的那样。

另一个差距是**历时间性**（diachronicity）；尽管有证据表明，识别准确率从当代书籍扫描的87%下降到1980年代报纸文章的67%[2 (https://arxiv.org/html/2606.29378#bib.bib5)]，且商业引擎在较旧媒介上也会退化[9 (https://arxiv.org/html/2606.29378#bib.bib38)]，但没有任何僧伽罗语OCR研究量化过时间差异对准确率的影响。

在本文中，我们解决这两个差距。首先，我们发布`sinhala-ocr-lk-acts-1010`（https://huggingface.co/datasets/avishadilhara/sinhala-ocr-lk-acts-1010），这是一个包含1010张人工校正的页面级标注图像-文本对的数据集，来自斯里兰卡立法法案（1981-1989年、2000-2019年），分为707个训练对、101个验证对和202个测试对，公开可用。其次，我们在八个LoRA[10 (https://arxiv.org/html/2606.29378#bib.bib67)]和QLoRA[7 (https://arxiv.org/html/2606.29378#bib.bib49)]实验中对三个VLM（DeepSeek-OCR V1[26 (https://arxiv.org/html/2606.29378#bib.bib46)]、DeepSeek-OCR V2[27 (https://arxiv.org/html/2606.29378#bib.bib51)]和LightOnOCR-2-1B[22 (https://arxiv.org/html/2606.29378#bib.bib52)]）进行微调，实现了1.05%的最佳字符错误率，超越了所有开源基线和Google Document AI（2.06%）。第三，我们首次对页面级僧伽罗语OCR在三个时间段（1981-1989年、2000-2009年、2010-2019年）[21 (https://arxiv.org/html/2606.29378#bib.bib61),9 (https://arxiv.org/html/2606.29378#bib.bib38),16 (https://arxiv.org/html/2606.29378#bib.bib60)]进行了历时间评估。

## II. 相关工作

### II-A. OCR架构与场景文本系统

早期深度学习OCR的发展使基于序列的识别成为主流范式。CRNN模型[18 (https://arxiv.org/html/2606.29378#bib.bib20)]利用基于CNN的特征提取和双向LSTM，结合CTC解码器，无需分割。相比之下，基于注意力校正的架构如ASTER[20 (https://arxiv.org/html/2606.29378#bib.bib15)]和RARE[19 (https://arxiv.org/html/2606.29378#bib.bib18)]在弯曲和扭曲文本识别上取得了更好的效果。在引入Transformer架构[24 (https://arxiv.org/html/2606.29378#bib.bib22)]之后，通过视觉Transformer[8 (https://arxiv.org/html/2606.29378#bib.bib21)]在视觉任务中引发了革命，TrOCR模型在文本识别中实现了最近的最先进结果[13 (https://arxiv.org/html/2606.29378#bib.bib26)]，它采用编码器-解码器方法，无需任何外部语言模型支持，超越了所有先前模型。在检测领域，EAST[29 (https://arxiv.org/html/2606.29378#bib.bib19)]和CRAFT[5 (https://arxiv.org/html/2606.29378#bib.bib16)]推进了任意形状文本的单阶段文本定位，而PhotoOCR[6 (https://arxiv.org/html/2606.29378#bib.bib30)]在不受控制的真实世界条件下展示了鲁棒的识别能力。

### II-B. 低资源、多语言与僧伽罗语OCR

由于数据缺失、文字复杂和预训练覆盖有限，低资源语言的OCR仍然具有挑战性[1 (https://arxiv.org/html/2606.29378#bib.bib37)]。尽可能使用真实数据而非合成数据进行训练至关重要[4 (https://arxiv.org/html/2606.29378#bib.bib17)]，这尤其适用于我们的僧伽罗语项目。Kolavi等人[12 (https://arxiv.org/html/2606.29378#bib.bib2)]介绍了Nayana，一种使用LoRA技术和合成数据为10种低资源印度语系文字适配VLM进行OCR的方法，将字符错误率降至基线模型的三分之一以下。Hegghammer和Thomas[9 (https://arxiv.org/html/2606.29378#bib.bib38)]发现，在处理非英语文字中的噪声文本时，商业引擎优于Tesseract。在僧伽罗语的具体主题上，Vasantharajan等人[23 (https://arxiv.org/html/2606.29378#bib.bib10)]在超过20种遗存字体上微调了Tesseract，并将初始字符错误率从7.61%降至4.74%，基于政府文档创建了一个平行数据集，这是数据集类型上最接近的工作。Jayatilleke和de Silva[11 (https://arxiv.org/html/2606.29378#bib.bib42)]比较了六个引擎在合成僧伽罗语-泰米尔语数据上的零样本性能，发现Surya在僧伽罗语上实现了最低的词错误率（WER），为2.61%；然而，评估中仅使用了干净的合成图像。Purushoth和Ambegoda[15 (https://arxiv.org/html/2606.29378#bib.bib6)]对几种用于僧伽罗语的开源文档图像分析模型进行了基准测试，发现Surya-OCR比Tesseract等遗存模型提供了最平衡且准确的性能。Anuradha等人[2 (https://arxiv.org/html/2606.29378#bib.bib5)]的研究报告称，现代书籍文本的准确率超过87%，但19世纪末（1870-1890年）的报纸仅为67%，为僧伽罗语OCR中的历时间退化提供了首个经验证据。

### II-C. 页面级OCR与历时间评估

标准OCR流水线常遭受连续阶段间的错误级联问题[25 (https://arxiv.org/html/2606.29378#bib.bib65),28 (https://arxiv.org/html/2606.29378#bib.bib64)]；页面级VLM通过一次前向传播处理整页来规避这一问题。KOSMOS-2.5[14 (https://arxiv.org/html/2606.29378#bib.bib62),28 (https://arxiv.org/html/2606.29378#bib.bib64)]展示了多模态LLM整体理解文本密集型文档图像的能力。然而，LightOnOCR-2-1B[22 (https://arxiv.org/html/2606.29378#bib.bib52)]和DeepSeek-OCR[26 (https://arxiv.org/html/2606.29378#bib.bib46)]表明，即使在更高分辨率文档图像的情况下，通过使用由QLoRA[7 (https://arxiv.org/html/2606.29378#bib.bib49)]和LoRA[10 (https://arxiv.org/html/2606.29378#bib.bib67)]启用的高效视觉词元嵌入，也能达到类似的结果。

通过追踪模型在不同印刷时代的性能来进行历时间评估，已被认为是衡量其对排版变化和媒介退化鲁棒性的关键[21 (https://arxiv.org/html/2606.29378#bib.bib61),16 (https://arxiv.org/html/2606.29378#bib.bib60)]。尽管有文献记载了僧伽罗语中基于时期的退化[2 (https://arxiv.org/html/2606.29378#bib.bib5)]，但所有先前的僧伽罗语OCR评估完全是共时性的。本工作首次对僧伽罗语进行了受控的历时间评估，时间跨度从1981年到2019年。

## III. 数据集准备与预处理

### III-A. 源文档

数据集来源于`lk_legal_docs`GitHub仓库[17 (https://arxiv.org/html/2606.29378#bib.bib47)]，这是一个斯里兰卡政府文档的多语言资源。每个文档文件夹包含一个`metadata.json`文件，字段包括`doc_type`、`date_str`、`lang`和指向`documents.gov.lk`上PDF的`url_pdf`。仅使用了僧伽罗语（`lang: "si"`）文档；通过`url_pdf`字段以编程方式下载PDF，如图1 (https://arxiv.org/html/2606.29378#S3.F1)所示。

### III-B. 文档处理流水线

参见说明图1：用于构建僧伽罗语政府法案OCR数据集的文档处理流水线。使用PyPDF2将超过15页的PDF以编程方式分割成30页的块。每个块通过`google-cloud-document-ai`Python客户端提交给Google Document AI（https://cloud.google.com/document-ai），并采用指数退避重试逻辑（3次重试，批间延迟60秒）；返回的每页文本保存为UTF-8 `.txt`文件，并用作人工标注的初始内容，如图1 (https://arxiv.org/html/2606.29378#S3.F1)所示。

### III-C. 页面选择与人工标注

选择具有完整僧伽罗语段落的页面用于我们的分析，其他页面（如表格和表单）为保持一致性而未包含。真实标注涉及手动纠正Document AI产生的错误，包括连字识别、字符替换、不一致的间距和错误的换行。1980年代的文档需要最多的校正，因为扫描质量很差。这为我们提供了1010个数据对：410个来自1980年代（1981-1989年），300个来自2000年代（2000-2009年），300个来自2010年代（2010-2019年）。1990-1999年这个十年被排除，因为在人工标注时间范围内无法实现完整覆盖。所选时期最大化利用了可用历时间跨度。

### III-D. 数据集划分

1010个标注对以固定随机种子42进行随机打乱以确保可重复性，然后以70/10/20的比例划分为707个训练对、101个验证对和202个测试对。最终划分在每个子集中保持了三个文档时代（1981-1989年、2000-2009年、2010-2019年）的均衡代表性，因为每个时代的文档具有相似的印刷风格和扫描特征。最终数据集作为公共仓库上传到Hugging Face Dataset Hub，用于版本控制和可重复性。表I (https://arxiv.org/html/2606.29378#S3.T1)总结了数据集统计信息。

**表 I：僧伽罗语政府法案OCR数据集统计。**

参见说明图2：标注页面样本按文档出版年份（1981-1989年和2000-2019年）的分布。

## IV. 实验设置

### IV-A. 模型选择

选择了三个VLM，因为它们专为密集文档OCR设计、具有与脚本无关的识别能力，并且与可用GPU硬件上的参数高效微调兼容。

**DeepSeek-OCR V1**[26 (https://arxiv.org/html/2606.29378#bib.bib46)]提出了上下文光学压缩范式。编码器由一个8000万参数的SAM-base主干（增强窗口注意力）和一个3亿参数的CLIP-large主干（具有16×卷积压缩）组成，随后是一个DeepSeek-3B MoE解码器，每次前向传播使用5.7亿参数。所有实验使用**Gundam**模式（基础尺寸1024像素，裁剪尺寸640像素）进行多尺度文档处理。DeepSeek-OCR V1明确列出僧伽罗语为其支持的100种语言之一。

**DeepSeek-OCR V2**[27 (https://arxiv.org/html/2606.29378#bib.bib51)]提出了DeepEncoder V2，用Qwen2-0.5B LLM风格架构替换了CLIP模型，并引入了因果流查询，在解码前对视觉标记进行语义重排序。在Gundam模式下，局部裁剪尺寸从640像素升级到768像素，实现了更精细的字符区分。

**LightOnOCR-2-1B**[22 (https://arxiv.org/html/2606.29378#bib.bib52)]是一个紧凑的10.05亿参数全可微分VLM，由使用Pixtral预训练的原生分辨率ViT编码器、4×下采样多模态投影仪和Qwen3语言模型解码器组成。其显著更低的参数量使其非常适合资源受限的GPU环境，同时仍支持复杂的文档布局，包括表格和数学公式。

### IV-B. 使用LoRA和QLoRA进行微调

所有模型通过LoRA和QLoRA[7 (https://arxiv.org/html/2606.29378#bib.bib49),10 (https://arxiv.org/html/2606.29378#bib.bib67)]进行微调，DeepSeek模型使用Unsloth（https://unsloth.ai/docs），LightOnOCR-2-1B使用LightOn。QLoRA保持基础模型的4位量化NF4参数，同时在Transformer解码器的注意力和前馈投影中添加可训练的低秩适配矩阵。所有实验均启用梯度检查点以减少峰值VRAM使用。表II (https://arxiv.org/html/2606.29378#S4.T2)总结了所有8个实验，这些实验在三个模型系列之间变化了GPU硬件、量化级别、LoRA秩和输入分辨率，始终使用相同的707/101/202数据划分。有关实验参数的更多详细信息，请访问我们的GitHub仓库（https://github.com/avishadilhara/Cross-Temporal-Sinhala-OCR）。

**表 II：所有8次微调实验的总结。**

### IV-C. 评估指标

所有8个微调模型和基线在相同的202样本保留测试集上使用五个指标进行评估：**CER**（字符错误率）和**WER**（词错误率）。

跨时间僧伽罗语OCR：页面级自适应与历时分析

相似文章

@DailyDoseOfDS_：在您自己的语言上微调DeepSeek-OCR！（100%本地）大多数视觉模型将文档视为巨大的序列…

baidu/Unlimited-OCR

Unlimited OCR: 一次性长程解析

LV-ROVER: 多流Tesseract投票用于马耳他语段落OCR

@thesupermanmx: 中国刚刚开源了一款OCR模型，可一次性转录整本书。它名为Unlimited OCR。构建于…

提交意见反馈