跨时间僧伽罗语OCR:页面级自适应与历时分析

arXiv cs.CL 论文

摘要

本文介绍了 sinhala-ocr-lk-acts-1010,这是首个公开可用的真实场景页面级僧伽罗语OCR数据集,并使用QLoRA对三种视觉语言模型(DeepSeek-OCR V1、DeepSeek-OCR V2、LightOnOCR-2-1B)进行了微调。LightOnOCR-2-1B实现了1.05%的字符错误率(CER),优于开源和商业OCR模型,并在不同时期的退化文档中保持了稳定的性能。

arXiv:2606.29378v1 公告类型:新 摘要:僧伽罗语是一种形态丰富的元音附标文字,斯里兰卡约有1600万人使用。迄今为止,还没有公开可用的真实场景页面级僧伽罗语OCR数据集。以往评估僧伽罗语OCR模型的研究均使用人工生成的数据。为弥补这一空白,我们引入了 sinhala-ocr-lk-acts-1010,这是一个包含1,010张页面级图像及其转录文本的注释数据集,这些数据取自1981-1989年和2000-2019年出版的斯里兰卡立法法案,并划分为707个训练样本、101个验证样本和202个测试样本。基于深度学习视觉语言处理的三个模型——DeepSeek-OCR V1、DeepSeek-OCR V2和LightOnOCR-2-1B——使用QLoRA在消费级和云端GPU上进行了8次实验微调。LightOnOCR-2-1B表现最佳,在所有测试样本上实现了1.05%的字符错误率(CER),优于最先进的开源OCR模型,如Surya-OCR(8.84%)和Tesseract v5(10.69%),以及商用OCR模型,如Google Document AI(2.06%)。我们的结果表明,LightOnOCR-2-1B在真实OCR任务中优于其他基线模型,并且在所有印刷时期(即使文档严重退化)都保持了稳定的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:31

# 跨时间僧伽罗语OCR:页面级自适应与历时间分析
来源:https://arxiv.org/html/2606.29378
###### 摘要

僧伽罗语是一种形态丰富的元音附标文字,斯里兰卡约有1600万人使用。迄今为止,尚无公开可用的真实世界页面级僧伽罗语OCR数据集。所有先前评估僧伽罗语OCR模型的研究均使用人工生成的数据。为填补这一空白,我们引入了`sinhala-ocr-lk-acts-1010`,这是一个包含1010张页面级图像及其转录文本的标注数据集,这些资料选自1981-1989年和2000-2019年间出版的斯里兰卡立法法案,分为707个训练样本、101个验证样本和202个测试样本。我们基于深度学习的视觉语言处理模型(即DeepSeek-OCR V1、DeepSeek-OCR V2和LightOnOCR-2-1B)在消费级和云GPU上进行了8次实验,使用QLoRA进行微调。LightOnOCR-2-1B表现最佳,在所有测试样本上实现了1.05%的字符错误率(CER),优于最先进的开源OCR模型(如Surya-OCR的8.84%和Tesseract v5的10.69%)以及商业OCR模型(如Google Document AI的2.06%)。我们的结果表明,LightOnOCR-2-1B在实际OCR任务中优于其他基线,并且在所有印刷时期均保持一致的性能,即使文档严重退化也是如此。

## I. 引言

光学字符识别(OCR)是数字化印刷文档并使其内容可搜索和大规模访问的关键使能技术。正如Jayatilleke和de Silva[11 (https://arxiv.org/html/2606.29378#bib.bib42)]所示,对于低资源和复杂脚本的语言,OCR准确率仍明显低于英语等高资源语言。

僧伽罗语是斯里兰卡的主要官方语言。僧伽罗语的文字是一种元音附标文字,字符多、连字多且字符间相似度高,给OCR引擎带来了挑战。现有研究稳步推进了使用Tesseract处理僧伽罗语字符的OCR引擎开发,以及从政府PDF构建平行语料库的工作[3 (https://arxiv.org/html/2606.29378#bib.bib11),23 (https://arxiv.org/html/2606.29378#bib.bib10)]。最近的基准测试甚至对商业和开源OCR引擎进行了比较,评估其在合成图像上的零样本学习性能[11 (https://arxiv.org/html/2606.29378#bib.bib42),15 (https://arxiv.org/html/2606.29378#bib.bib6)]。然而,所有现有评估都是在合成图像或有限字体集上进行的,并且不存在公开可用的真实印刷僧伽罗语页面级数据集。

页面级视觉语言模型(VLM)通过一次前向传播处理整页图像,从而绕过分步布局检测和分割过程相关的错误,因此非常适合此类挑战[13 (https://arxiv.org/html/2606.29378#bib.bib26),14 (https://arxiv.org/html/2606.29378#bib.bib62)]。基于QLoRA技术的参数高效微调使得数十亿参数VLM的适应成为可能[7 (https://arxiv.org/html/2606.29378#bib.bib49)],这使在消费级硬件上适配数十亿参数的VLM变得可行,正如Kolavi等人[12 (https://arxiv.org/html/2606.29378#bib.bib2)]最近为低资源印度语系文字所展示的那样。

另一个差距是**历时间性**(diachronicity);尽管有证据表明,识别准确率从当代书籍扫描的87%下降到1980年代报纸文章的67%[2 (https://arxiv.org/html/2606.29378#bib.bib5)],且商业引擎在较旧媒介上也会退化[9 (https://arxiv.org/html/2606.29378#bib.bib38)],但没有任何僧伽罗语OCR研究量化过时间差异对准确率的影响。

在本文中,我们解决这两个差距。首先,我们发布`sinhala-ocr-lk-acts-1010`(https://huggingface.co/datasets/avishadilhara/sinhala-ocr-lk-acts-1010),这是一个包含1010张人工校正的页面级标注图像-文本对的数据集,来自斯里兰卡立法法案(1981-1989年、2000-2019年),分为707个训练对、101个验证对和202个测试对,公开可用。其次,我们在八个LoRA[10 (https://arxiv.org/html/2606.29378#bib.bib67)]和QLoRA[7 (https://arxiv.org/html/2606.29378#bib.bib49)]实验中对三个VLM(DeepSeek-OCR V1[26 (https://arxiv.org/html/2606.29378#bib.bib46)]、DeepSeek-OCR V2[27 (https://arxiv.org/html/2606.29378#bib.bib51)]和LightOnOCR-2-1B[22 (https://arxiv.org/html/2606.29378#bib.bib52)])进行微调,实现了1.05%的最佳字符错误率,超越了所有开源基线和Google Document AI(2.06%)。第三,我们首次对页面级僧伽罗语OCR在三个时间段(1981-1989年、2000-2009年、2010-2019年)[21 (https://arxiv.org/html/2606.29378#bib.bib61),9 (https://arxiv.org/html/2606.29378#bib.bib38),16 (https://arxiv.org/html/2606.29378#bib.bib60)]进行了历时间评估。

## II. 相关工作

### II-A. OCR架构与场景文本系统

早期深度学习OCR的发展使基于序列的识别成为主流范式。CRNN模型[18 (https://arxiv.org/html/2606.29378#bib.bib20)]利用基于CNN的特征提取和双向LSTM,结合CTC解码器,无需分割。相比之下,基于注意力校正的架构如ASTER[20 (https://arxiv.org/html/2606.29378#bib.bib15)]和RARE[19 (https://arxiv.org/html/2606.29378#bib.bib18)]在弯曲和扭曲文本识别上取得了更好的效果。在引入Transformer架构[24 (https://arxiv.org/html/2606.29378#bib.bib22)]之后,通过视觉Transformer[8 (https://arxiv.org/html/2606.29378#bib.bib21)]在视觉任务中引发了革命,TrOCR模型在文本识别中实现了最近的最先进结果[13 (https://arxiv.org/html/2606.29378#bib.bib26)],它采用编码器-解码器方法,无需任何外部语言模型支持,超越了所有先前模型。在检测领域,EAST[29 (https://arxiv.org/html/2606.29378#bib.bib19)]和CRAFT[5 (https://arxiv.org/html/2606.29378#bib.bib16)]推进了任意形状文本的单阶段文本定位,而PhotoOCR[6 (https://arxiv.org/html/2606.29378#bib.bib30)]在不受控制的真实世界条件下展示了鲁棒的识别能力。

### II-B. 低资源、多语言与僧伽罗语OCR

由于数据缺失、文字复杂和预训练覆盖有限,低资源语言的OCR仍然具有挑战性[1 (https://arxiv.org/html/2606.29378#bib.bib37)]。尽可能使用真实数据而非合成数据进行训练至关重要[4 (https://arxiv.org/html/2606.29378#bib.bib17)],这尤其适用于我们的僧伽罗语项目。Kolavi等人[12 (https://arxiv.org/html/2606.29378#bib.bib2)]介绍了Nayana,一种使用LoRA技术和合成数据为10种低资源印度语系文字适配VLM进行OCR的方法,将字符错误率降至基线模型的三分之一以下。Hegghammer和Thomas[9 (https://arxiv.org/html/2606.29378#bib.bib38)]发现,在处理非英语文字中的噪声文本时,商业引擎优于Tesseract。在僧伽罗语的具体主题上,Vasantharajan等人[23 (https://arxiv.org/html/2606.29378#bib.bib10)]在超过20种遗存字体上微调了Tesseract,并将初始字符错误率从7.61%降至4.74%,基于政府文档创建了一个平行数据集,这是数据集类型上最接近的工作。Jayatilleke和de Silva[11 (https://arxiv.org/html/2606.29378#bib.bib42)]比较了六个引擎在合成僧伽罗语-泰米尔语数据上的零样本性能,发现Surya在僧伽罗语上实现了最低的词错误率(WER),为2.61%;然而,评估中仅使用了干净的合成图像。Purushoth和Ambegoda[15 (https://arxiv.org/html/2606.29378#bib.bib6)]对几种用于僧伽罗语的开源文档图像分析模型进行了基准测试,发现Surya-OCR比Tesseract等遗存模型提供了最平衡且准确的性能。Anuradha等人[2 (https://arxiv.org/html/2606.29378#bib.bib5)]的研究报告称,现代书籍文本的准确率超过87%,但19世纪末(1870-1890年)的报纸仅为67%,为僧伽罗语OCR中的历时间退化提供了首个经验证据。

### II-C. 页面级OCR与历时间评估

标准OCR流水线常遭受连续阶段间的错误级联问题[25 (https://arxiv.org/html/2606.29378#bib.bib65),28 (https://arxiv.org/html/2606.29378#bib.bib64)];页面级VLM通过一次前向传播处理整页来规避这一问题。KOSMOS-2.5[14 (https://arxiv.org/html/2606.29378#bib.bib62),28 (https://arxiv.org/html/2606.29378#bib.bib64)]展示了多模态LLM整体理解文本密集型文档图像的能力。然而,LightOnOCR-2-1B[22 (https://arxiv.org/html/2606.29378#bib.bib52)]和DeepSeek-OCR[26 (https://arxiv.org/html/2606.29378#bib.bib46)]表明,即使在更高分辨率文档图像的情况下,通过使用由QLoRA[7 (https://arxiv.org/html/2606.29378#bib.bib49)]和LoRA[10 (https://arxiv.org/html/2606.29378#bib.bib67)]启用的高效视觉词元嵌入,也能达到类似的结果。

通过追踪模型在不同印刷时代的性能来进行历时间评估,已被认为是衡量其对排版变化和媒介退化鲁棒性的关键[21 (https://arxiv.org/html/2606.29378#bib.bib61),16 (https://arxiv.org/html/2606.29378#bib.bib60)]。尽管有文献记载了僧伽罗语中基于时期的退化[2 (https://arxiv.org/html/2606.29378#bib.bib5)],但所有先前的僧伽罗语OCR评估完全是共时性的。本工作首次对僧伽罗语进行了受控的历时间评估,时间跨度从1981年到2019年。

## III. 数据集准备与预处理

### III-A. 源文档

数据集来源于`lk_legal_docs`GitHub仓库[17 (https://arxiv.org/html/2606.29378#bib.bib47)],这是一个斯里兰卡政府文档的多语言资源。每个文档文件夹包含一个`metadata.json`文件,字段包括`doc_type`、`date_str`、`lang`和指向`documents.gov.lk`上PDF的`url_pdf`。仅使用了僧伽罗语(`lang: "si"`)文档;通过`url_pdf`字段以编程方式下载PDF,如图1 (https://arxiv.org/html/2606.29378#S3.F1)所示。

### III-B. 文档处理流水线

参见说明图1:用于构建僧伽罗语政府法案OCR数据集的文档处理流水线。使用PyPDF2将超过15页的PDF以编程方式分割成30页的块。每个块通过`google-cloud-document-ai`Python客户端提交给Google Document AI(https://cloud.google.com/document-ai),并采用指数退避重试逻辑(3次重试,批间延迟60秒);返回的每页文本保存为UTF-8 `.txt`文件,并用作人工标注的初始内容,如图1 (https://arxiv.org/html/2606.29378#S3.F1)所示。

### III-C. 页面选择与人工标注

选择具有完整僧伽罗语段落的页面用于我们的分析,其他页面(如表格和表单)为保持一致性而未包含。真实标注涉及手动纠正Document AI产生的错误,包括连字识别、字符替换、不一致的间距和错误的换行。1980年代的文档需要最多的校正,因为扫描质量很差。这为我们提供了1010个数据对:410个来自1980年代(1981-1989年),300个来自2000年代(2000-2009年),300个来自2010年代(2010-2019年)。1990-1999年这个十年被排除,因为在人工标注时间范围内无法实现完整覆盖。所选时期最大化利用了可用历时间跨度。

### III-D. 数据集划分

1010个标注对以固定随机种子42进行随机打乱以确保可重复性,然后以70/10/20的比例划分为707个训练对、101个验证对和202个测试对。最终划分在每个子集中保持了三个文档时代(1981-1989年、2000-2009年、2010-2019年)的均衡代表性,因为每个时代的文档具有相似的印刷风格和扫描特征。最终数据集作为公共仓库上传到Hugging Face Dataset Hub,用于版本控制和可重复性。表I (https://arxiv.org/html/2606.29378#S3.T1)总结了数据集统计信息。

**表 I:僧伽罗语政府法案OCR数据集统计。**

参见说明图2:标注页面样本按文档出版年份(1981-1989年和2000-2019年)的分布。

## IV. 实验设置

### IV-A. 模型选择

选择了三个VLM,因为它们专为密集文档OCR设计、具有与脚本无关的识别能力,并且与可用GPU硬件上的参数高效微调兼容。

**DeepSeek-OCR V1**[26 (https://arxiv.org/html/2606.29378#bib.bib46)]提出了上下文光学压缩范式。编码器由一个8000万参数的SAM-base主干(增强窗口注意力)和一个3亿参数的CLIP-large主干(具有16×卷积压缩)组成,随后是一个DeepSeek-3B MoE解码器,每次前向传播使用5.7亿参数。所有实验使用**Gundam**模式(基础尺寸1024像素,裁剪尺寸640像素)进行多尺度文档处理。DeepSeek-OCR V1明确列出僧伽罗语为其支持的100种语言之一。

**DeepSeek-OCR V2**[27 (https://arxiv.org/html/2606.29378#bib.bib51)]提出了DeepEncoder V2,用Qwen2-0.5B LLM风格架构替换了CLIP模型,并引入了因果流查询,在解码前对视觉标记进行语义重排序。在Gundam模式下,局部裁剪尺寸从640像素升级到768像素,实现了更精细的字符区分。

**LightOnOCR-2-1B**[22 (https://arxiv.org/html/2606.29378#bib.bib52)]是一个紧凑的10.05亿参数全可微分VLM,由使用Pixtral预训练的原生分辨率ViT编码器、4×下采样多模态投影仪和Qwen3语言模型解码器组成。其显著更低的参数量使其非常适合资源受限的GPU环境,同时仍支持复杂的文档布局,包括表格和数学公式。

### IV-B. 使用LoRA和QLoRA进行微调

所有模型通过LoRA和QLoRA[7 (https://arxiv.org/html/2606.29378#bib.bib49),10 (https://arxiv.org/html/2606.29378#bib.bib67)]进行微调,DeepSeek模型使用Unsloth(https://unsloth.ai/docs),LightOnOCR-2-1B使用LightOn。QLoRA保持基础模型的4位量化NF4参数,同时在Transformer解码器的注意力和前馈投影中添加可训练的低秩适配矩阵。所有实验均启用梯度检查点以减少峰值VRAM使用。表II (https://arxiv.org/html/2606.29378#S4.T2)总结了所有8个实验,这些实验在三个模型系列之间变化了GPU硬件、量化级别、LoRA秩和输入分辨率,始终使用相同的707/101/202数据划分。有关实验参数的更多详细信息,请访问我们的GitHub仓库(https://github.com/avishadilhara/Cross-Temporal-Sinhala-OCR)。

**表 II:所有8次微调实验的总结。**

### IV-C. 评估指标

所有8个微调模型和基线在相同的202样本保留测试集上使用五个指标进行评估:**CER**(字符错误率)和**WER**(词错误率)。

相似文章

baidu/Unlimited-OCR

Hugging Face Models Trending

百度发布了Unlimited-OCR,一种用于一次性长程文档解析的新模型,基于Deepseek-OCR构建。它支持通过Hugging Face Transformers和SGLang进行单图像和多页/PDF解析。

Unlimited OCR: 一次性长程解析

Hacker News Top

百度发布Unlimited-OCR,这是一个基于Deepseek-OCR构建的开源模型,用于一次性长程文档解析,支持单张图片、多页文档和PDF。