学习古希腊字母形态的历时表征
摘要
本文介绍了三个数据集(Hell-Char、PaLit-Char、Med-Char),用于古希腊字母形态的历时表征学习,并提出了一种基于相似性加权的有监督对比损失函数,结合空缺驱动增强方法,以鲁棒地学习跨越数百年手写变化的字符嵌入。
arXiv:2606.24984v1 公告类型:新
摘要:在历时表征学习中,学习能够跨越数百年手写变化而保持鲁棒的表征是一项关键挑战。本文以古希腊文字(使用时间最长的连续书写系统之一)为案例,引入了三个用于历时表征学习的数据集:Hell-Char(精选训练集,涵盖公元前3至1世纪)、PaLit-Char(公元2至5世纪评估集)和Med-Char(公元9至14世纪评估集)。为应对符号变异、数据稀缺和系统性退化等挑战,我们提出:一种基于相似性加权的有监督对比损失函数,利用动态估计的类间相似性来偏置嵌入;以及一种空缺驱动增强方案,模拟真实的手稿损坏。采用这些策略训练后,轻量级CNN和预训练ResNet均取得了强大的识别性能,并生成比PCA或通用预训练模型更清晰地分离字符类别的嵌入。这些嵌入支持聚类、风格子组识别,以及构建原型图像以可视化历时演变和过渡字母形态。我们的结果表明,尊重内在的字母间关系并利用领域信息增强的损坏处理,能够产生鲁棒且可解释的表征,为在数据稀缺、时间演变和噪声条件下的表征学习提供了一种可迁移的范式。代码和数据见:https://github.com/ipavlopoulos/diachronic-greek-letterforms。
查看缓存全文
缓存时间: 2026/06/25 05:09
# 学习古希腊字母形态的历时表示 来源:https://arxiv.org/html/2606.24984 11institutetext:雅典经济与商业大学,希腊 11email:ipavlopoulos@aueb\.gr 22institutetext:Archimedes,雅典娜研究中心,希腊 33institutetext:计算机与系统科学系,斯德哥尔摩大学,瑞典 44institutetext:都灵大学,意大利 55institutetext:巴塞尔大学,瑞士 66institutetext:色雷斯德谟克利特大学,希腊 77institutetext:计算机视觉中心 (CVC) - 巴塞罗那,西班牙 88institutetext:维尔茨堡大学,德国 John Pavlopoulos1,2JP 负责实验并撰写初稿;MK、GDG、IMS 指导实验并共同撰写。LF 共同撰写(尤其第4节和第6节)并提供 Hell-Char 数据集及专业知识。PP 和 HE 共同撰写并提供专业知识。AP 提供 Med-Char 数据集。SB 和 DV 协助实验和概念化。Lavinia Ferretti4,5Dionysis Voulgarakis2Asimina Paparrigopoulou6Maria Konstantinidou6Giuseppe De Gregorio5,7Isabelle Marthot-Santaniello5Paraskevi Platanou1,2Holger Essler8 ###### 摘要 学习在几个世纪的书写变体中保持稳健的表示是历时表示学习中的一个关键挑战。以使用时间最长的书写系统之一——古希腊语为案例,我们引入了三个用于历时表示学习的数据集:Hell-Char(一个精心策划的训练集,涵盖公元前3世纪至1世纪)和两个评估集 PaLit-Char(公元2-5世纪)和 Med-Char(公元9-14世纪)。为了应对符号变异、数据稀少和系统性退化等挑战,我们提出了一种*相似性加权监督对比损失*,它利用动态估计的类间相似性来偏置嵌入,以及一种*残损驱动的增强*方案,模拟逼真的手稿损坏。使用这些策略训练后,轻量级CNN和预训练ResNet都实现了强大的识别性能,并产生比PCA或通用预训练模型更连贯地分离字符类别的嵌入。这些嵌入能够进行聚类、识别风格子群,以及构建原型图像以可视化历时演化和过渡字母形态。我们的结果表明,尊重内在的字母间关系并使用领域信息增强的损坏能产生稳健且可解释的表示,为在数据稀少、随时间演化且噪声严重的条件下进行表示学习提供了一种可迁移的范式。代码和数据可在以下网址获取:https://github.com/ipavlopoulos/diachronic-greek-letterforms。 ## 1 引言 历史书写系统的古文字分析需要稳健的自动化字符表示,这一挑战对于古希腊语等脚本尤为严峻。希腊手写体跨越两千五百多年,涵盖了正式的文学手写体和高度草写的脚本,在笔画形状、比例、倾斜度和上下文噪声方面存在显著差异[4 (https://arxiv.org/html/2606.24984#bib.bib14),6 (https://arxiv.org/html/2606.24984#bib.bib29),12 (https://arxiv.org/html/2606.24984#bib.bib30),1 (https://arxiv.org/html/2606.24984#bib.bib33)]。材料退化和异构数字化实践进一步加剧了这些挑战,引入了模糊性,使分割、特征提取以及字符识别和分类变得复杂,尤其是在数据集有限且不平衡的情况下。尽管有时被视为低级任务,但自动化字符表示对更广泛的古文字分析具有重要影响,支持文本-图像对齐、半自动转录以及脚本类型学、年代测定和抄写归属等任务。 现有的文档分析和识别方法通常假设字符形态稳定且有足够的训练数据。这些假设在历史脚本中不成立,因为字母形式在几个世纪中逐渐演化并表现出系统性的结构漂移。因此,标准的迁移学习和对比学习方法并未明确建模结构化的类间相似性,将视觉上相关但不同的字母形式视为同等不相似的负样本。 本研究通过学习稳健的字符表示来应对这一挑战,以历时泛化作为核心测试案例。我们聚焦于古希腊字母的演化,采用融合古文字知识的表示学习框架。我们提出了两项领域驱动的创新方法:一种*残损驱动的增强*(LF),模拟逼真的手稿退化;以及一种*相似性加权*监督对比损失(DSCL),根据动态估计的类间相似性重新加权负样本对。LF 针对手稿损坏产生的非矩形缺失模式,而 DSCL 针对形态上容易混淆的字母类别,这些类别不应被视为均匀遥远负样本。我们评估了它们对识别性能和表示结构的影响。混淆矩阵揭示了系统性容易和困难的字母,而对学到的嵌入进行聚类分析则揭示了风格子群和视觉上一致的形式。每个字母-世纪的原型可视化进一步实现了对历时演化的定量和可解释分析。与原始像素、PCA 或通用预训练特征相比,我们的嵌入产生了更连贯且更具区分性的历史希腊手写体表示。 我们将贡献总结为以下四个关键点: 1. 我们提出了一种表示学习目标,与标准的 SCL 或难负样本挖掘不同,它明确建模了类间相似性结构,防止了本质上相似的字母形态之间的排斥。 2. 我们引入了一种领域信息增强方案,更逼真地模拟手稿退化(残损),增加了对缺失或损坏笔画的鲁棒性。 3. 我们引入了跨越公元前3世纪至公元14世纪的历史希腊手写体数据集:Hell-Char(公元前3-1世纪),源自 Hell-Date,用于字符级训练和基准测试;以及两个新编纂的评估数据集,PaLit-Char(公元2-5世纪)和 Med-Char(公元9-14世纪),用于测试跨时间转移的泛化能力。 4. 我们使用 CNN 派生的嵌入进行计算古文字分析。我们执行聚类、基于轮廓的子群检测以及每个字母-世纪的原型可视化,为历时变异和抄写惯例提供可解释的见解。111代码和数据可在以下网址获取:https://github.com/ipavlopoulos/diachronic-greek-letterforms。 ## 2 相关工作 据我们所知,文献中尚无其他研究使用机器学习分析从古代到前现代时期希腊手写字母的历时演化。然而,我们承认存在相关领域,例如光学字符识别(OCR)以及其他关于希腊纸莎草纸字符级别的研究,接下来我们将讨论这些领域。 #### OCR。 早期的 OCR 方法依赖于手动特征提取方法,例如分区、投影直方图和轮廓分析,以区分字符。一项综合性调查强调了这些手工特征在 OCR 中的重要性[22 (https://arxiv.org/html/2606.24984#bib.bib15)],而在[10 (https://arxiv.org/html/2606.24984#bib.bib27)]中,引入了一种基于字素的特征提取系统,该系统建模了历时变异,同时结合了文本特征。深度学习的出现进一步改变了这一领域。在[14 (https://arxiv.org/html/2606.24984#bib.bib17)]中,作者展示了卷积神经网络(CNN)在手写数字分类中的有效性,为现代神经方法在字符识别中奠定了基础。自编码器[11 (https://arxiv.org/html/2606.24984#bib.bib22)]和对比学习[5 (https://arxiv.org/html/2606.24984#bib.bib23)]在无监督学习中获得了关注,使模型能够直接从数据中学习有意义的手写体表示,无需手动特征工程。基于这些进展,一些后续工作研究了深度学习对古希腊手写体某些方面的特征分析。在[16 (https://arxiv.org/html/2606.24984#bib.bib31)]中,作者解决了在没有明确日期或风格元数据的情况下按相似性对历史手写体进行聚类的问题。他们的方法强烈关注字符,使用 SimSiam 神经网络量化来自不同手稿的单个希腊字母(Alpha、Epsilon 和 Mu)图像之间的相似性。他们对风格相似性的观察对古文字学家很有用,因为他们将手稿置于一个综合网络中,并揭示了微妙的微观相似现象。 #### CNN。 CNN 已被应用于 OCR 提取的文本[15 (https://arxiv.org/html/2606.24984#bib.bib25)],结合视觉和文本特征以提高年代测定准确性。然而,他们的方法假设存在高质量(历史但印刷)的数据,能够产生准确的 OCR 结果,这一假设在历史文献(如我们研究中所涉及到的希腊纸莎草纸)的背景下经常不成立。为了应对这些挑战,一个在 ImageNet 上预训练的 CNN 在中世纪文档语料库上进行了微调,证明在退化的或不规则的脚本上性能有所提升[23 (https://arxiv.org/html/2606.24984#bib.bib26)]。更具体到年代学,在[24 (https://arxiv.org/html/2606.24984#bib.bib32)]中,设计了一个深度学习流程,用于自动测定古希腊纸莎草碎片图像的年代。一个多阶段流程集成了手写文本识别(HTR)用于字符检测和分类,然后是独立的字符级和碎片级年代预测模型。在具有大量字符的碎片上,他们的碎片级模型聚合总和在预测两个世纪宽的年代范围时达到了高达79%的准确率。最近,提出了一个基于 Transformer 的流程[2 (https://arxiv.org/html/2606.24984#bib.bib28)],它将经典的预处理技术与微调后的 Vision Transformer 和多数投票法相结合用于文档年代测定。这项研究开创性地将 Vision Transformer 整合到历史手稿年代测定的背景中,而此前 CNN 在该领域占据主导地位。 #### SimCLR。 在[5 (https://arxiv.org/html/2606.24984#bib.bib23)]中引入了一个简单而强大的对比学习框架用于表示学习。每个图像被增强两次,网络被训练以最大化正样本对之间的一致性,同时将批次中所有其他样本视为负样本。虽然作为一种简单的自监督技术在规模上有效,但 SimCLR 假设所有不匹配的样本都是同等不相似的。在字符分类等细粒度识别任务中,这种统一处理迫使视觉上相似但不同的类别分离(例如,A 与 Λ),丢弃了有用的结构信息。 #### SCL。 在[13 (https://arxiv.org/html/2606.24984#bib.bib34)]中,作者将 SimCLR 扩展到有标签设置,将同一类别的所有样本都作为正样本。这产生了更紧密的类特定聚类。重要的是,他们还表明,将监督对比嵌入与在交叉熵下训练的线性分类器相结合,与单独使用交叉熵相比,进一步提高了分类准确率。然而,SCL 仍然统一地对待所有负样本,无论它们与锚点的视觉相似性如何。因此,具有内在亲和性的类别(例如,形状相似的字母)被过于强烈地排斥,导致嵌入无法反映自然的类间关系。除了实例判别之外,弱监督 SCL[26 (https://arxiv.org/html/2606.24984#bib.bib35)]引入了一个基于从 K-最近邻图派生的弱标签的监督对比组件。该方法不是将所有其他样本视为负样本,而是动态识别语义相似的邻居并将其重新加权为正样本,从而缓解了类碰撞问题。SCL 统一地对待负样本,使具有内在亲和性的类别(例如,形状相似的字母)被强烈排斥。这导致嵌入无法反映自然的类间关系。我们的研究解决了这一空白。 ## 3 方法论 我们使用 CNN 派生的嵌入,结合先进的碎片化策略和 SCL 策略,分析跨世纪的希腊手写字母。 ### 3.1 CNN 骨干网络与残损碎片化 在[18 (https://arxiv.org/html/2606.24984#bib.bib6)]中提出了一种用于测定纸莎草纸行图像年代的 2D CNN(fCNN),其中包含一种基于碎片化的增强策略。我们遵循类似的基于碎片化的策略,但我们的 CNN 在两方面有所不同。首先,它被调整为在字母而不是文本行上操作。其次,碎片化增强得到了改进,使得合成残损遵循其自然的(弯曲)形状,即圆形或椭圆形,而不是方形(§5.1 (https://arxiv.org/html/2606.24984#S5.SS1))。训练后的模型产生高维嵌入 e ∈ R^D,代表每个字母的视觉结构。基础的 CNN 架构由卷积层(提取局部笔画和形状模式)、ReLU 激活函数(非线性)、池化层(降低空间维度同时保留显著特征)、全连接层(将特征图映射到最终嵌入向量)组成。这些嵌入抽象了风格变化,同时保留了基本的字母形态特征。我们还实验了预训练的 ResNet18 CNN[9 (https://arxiv.org/html/2606.24984#bib.bib5)]、自监督且全局归一化的 ConvNext-V2 CNN[25 (https://arxiv.org/html/2606.24984#bib.bib19)]以及 ViT-S16 Vision Transformer[3 (https://arxiv.org/html/2606.24984#bib.bib18)]。 ### 3.2 增强 每个字符图像被转换为灰度图、归一化并调整大小为 64×64 像素。为了解释手写体的变异和材料退化,我们应用了旋转(最多10°)、平移、缩放、颜色抖动以及残损启发的掩蔽(LF),模拟缺失的墨水或手稿损坏,从而提高了模型对部分字符可见性的鲁棒性(图1 (https://arxiv.org/html/2606.24984#S3.F1),最右侧)。 参见图注 图 1:来自 Hell-Char 的 Alpha(最左侧)经过矩形(RE,第二个)和残损启发(LF,第三个)掩蔽。带有自然碎裂表面的 Alpha(第四个)。 ### 3.3 相似性加权监督对比损失 除了标准交叉熵损失(即应用于骨干网络分类头的监督字母分类目标)外,我们使用 SCL 损失训练骨干网络,该损失鼓励相同字母的嵌入聚集在一起,同时推开视觉上不相似的字母。动态学习的视觉相似性(注:视觉相似性也可以手动定义,但我们的实验(使用基于现代字母形状的先验相似性矩阵)并未带来改进。)被用于加权负样本对,使模型能够尊重内在的字母间关系。这种对比损失不是在分类 logits 上计算的,而是应用于骨干网络在分类头之前产生的中间特征嵌入。
相似文章
利用形态学进行历史文字计量分析
本文提出了一种基于Transformer的架构,结合原型学习,仅利用行级转录即可从历史文档中进行可扩展的古文字测量,并在仅有少量训练数据的160页手抄本上证明了其有效性。
AthDGC:一个开放的历时希腊语树库,具有印欧语平行语料
本文介绍了AthDGC,这是首个获得公开许可的依存句法分析希腊语树库,跨越八个历时时期,并使用Stanza、LaBSE和多语言BERT等NLP工具与四种古代印欧语进行了诗句级别的交叉对齐。
希腊字母卡片
一个个人副业项目,作者为孩子们制作了一副希腊字母卡片,利用视觉联想,每个物体的形状与其代表的字母相似。过程中涉及过滤希腊词典,并使用ChatGPT和OpenAI的图像生成功能来寻找和绘制候选物体。
基于历史文本的预训练语言模型
本文介绍了 TypewriterLM,一个参数规模为 7.24B 的语言模型,仅基于 1913 年之前的英文文本进行训练;同时介绍了 TypewriterCorpus(一个包含 540 亿 token 的清洗后历史语料库)以及指令微调数据集,以避免时间泄露和前瞻偏差。此外,还提出了一个基准测试套件 History-Event,用于评估时间定位能力和泄露情况。
基于混合潜空间建模的结构连接组获取变异无监督学习
本文提出了一种无监督框架,通过混合潜空间建模来模拟结构连接组中与获取相关的变异,利用架构退火编码器输出消除了手动容量调优的需求。