利用形态学进行历史文字计量分析
摘要
本文提出了一种基于Transformer的架构,结合原型学习,仅利用行级转录即可从历史文档中进行可扩展的古文字测量,并在仅有少量训练数据的160页手抄本上证明了其有效性。
查看缓存全文
缓存时间: 2026/06/12 10:52
论文页面 - 利用形态学进行历史手稿计量分析
来源: https://huggingface.co/papers/2606.09446
摘要
一种基于 transformer 的原型学习架构,能够仅凭行级转录本从历史文档中进行可扩展的古文字测量,并在仅需极少量训练数据的 160 页手抄本上证明了其有效性。
手写文本识别领域的进展已实现了历史文档的大规模转录,但仍然难以提供可供解读的视觉测量数据用于古文字学研究(即对历史字体的研究)。本文的核心洞见在于:形态学字体分析——特别是从行级转录本中学习字符原型的能力——能够定义可扩展、有意义且稳定的古文字测量指标。更具体地说,我们利用 transformer 检测架构以及基于原型的行重建模块,来学习原型字符及其出现位置、形变和定位。我们的贡献有两方面。首先,我们提出了一种深度架构和学习方法,仅需行级转录本作为监督信号即可实现高效的字符建模,显著优于可学习打字机基线,并实现了准确的字符边界框预测,从而释放了其在古文字测量中的潜力。其次,我们引入并展示了由我们的架构为字符、双字母组和图形单元间空白所启用的自动测量在古文字学上的相关性。为了演示,我们将巴黎手抄本 BnF, fr. 2813(14 世纪末由查理五世委托制作、由四位抄写员抄写)的标注扩展到 160 页。我们对这些页面上的测量结果进行了可视化,展示了它们不仅能够区分出不同的书写轮廓,还能揭示并分析细微的变化。这一案例研究概述了我们方法的可扩展性及其对训练数据的节俭性——只需单列文字即可对这 160 页的每一页进行测量。数据和代码已公开于:https://malamatenia.github.io/morphology4metrology-analysis/。
查看 arXiv 页面 (https://arxiv.org/abs/2606.09446)查看 PDF (https://arxiv.org/pdf/2606.09446)项目页面 (https://malamatenia.github.io/morphology4metrology-analysis/)GitHub12 (https://github.com/raphael-baena/morphology4metrology)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09446)
在你的代理中获取此论文:
hf papers read 2606.09446
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型1
RaphaelBfr/morphology4metrology 更新于1天前 (https://huggingface.co/RaphaelBfr/morphology4metrology)
引用此论文的数据集1
RaphaelBfr/morphology4metrology-bnf2813 查看器• 更新于约21小时前 • 15.1k • 38 (https://huggingface.co/datasets/RaphaelBfr/morphology4metrology-bnf2813)
引用此论文的 Spaces0
没有 Space 链接到此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.09446 以在此页面建立链接。
包含此论文的收藏0
没有包含此论文的收藏
请将此论文添加至一个收藏 (https://huggingface.co/new-collection) 以在此页面建立链接。
相似文章
学习古希腊字母形态的历时表征
本文介绍了三个数据集(Hell-Char、PaLit-Char、Med-Char),用于古希腊字母形态的历时表征学习,并提出了一种基于相似性加权的有监督对比损失函数,结合空缺驱动增强方法,以鲁棒地学习跨越数百年手写变化的字符嵌入。
基于历史文本的预训练语言模型
本文介绍了 TypewriterLM,一个参数规模为 7.24B 的语言模型,仅基于 1913 年之前的英文文本进行训练;同时介绍了 TypewriterCorpus(一个包含 540 亿 token 的清洗后历史语料库)以及指令微调数据集,以避免时间泄露和前瞻偏差。此外,还提出了一个基准测试套件 History-Event,用于评估时间定位能力和泄露情况。
MorfFlex:处理丰富的形态学
本文介绍了MorfFlex,一种适用于具有丰富屈折和派生形态的语言的形态词典架构,以捷克语的MorfFlex CZ为例,该词典包含超过1亿个词形,支持标注一致性和NLP工具。
文字穿越时间:转写在NLP中演化的全景综述
全面梳理转写如何打破跨语言NLP的“文字壁垒”,提升低资源语言迁移学习效果,并给出落地实践指南。
一种可复现的、面向Katharevousa希腊语议会文本的Universal Dependencies风格流水线
本文介绍了一种可复现的流水线,用于构建面向Katharevousa希腊语议会文本的Universal Dependencies风格解析资源,包括OCR重建、LLM辅助标注以及多个解析器的评估。最佳模型(XLM-R)达到了0.8893的UPOS准确率和0.5162的LAS,显著优于现成的基线模型。