利用形态学进行历史文字计量分析

Hugging Face Daily Papers 2026/06/08 00:00 论文

摘要

本文提出了一种基于Transformer的架构，结合原型学习，仅利用行级转录即可从历史文档中进行可扩展的古文字测量，并在仅有少量训练数据的160页手抄本上证明了其有效性。

手写文本识别的进步使得历史文档的大规模转录成为可能，但对于古文字学（即历史文字研究）而言，仍只能提供有限的可解释视觉测量。本文的主要见解是：形态学文字分析，特别是从行级转录中学习字符原型的能力，使得可定义可扩展、有意义且稳定的古文字测量。更具体地说，我们利用基于Transformer的检测架构以及基于原型的行重建模块，来学习原型字符及其出现、变形和定位。我们的贡献有两个方面。首先，我们引入了一种深度学习架构和学习方法，仅通过行级转录监督即可实现高效的字符建模，显著优于Learnable Typewriter基线，并实现了准确的字符边界框预测，释放了其在古文字测量中的潜力。其次，我们引入并展示了由我们的架构实现的自动测量在字符、双字母组以及图形单元间距方面的古文字学相关性。为此演示，我们将巴黎国家图书馆藏手抄本fr. 2813（14世纪末由查理五世委托、四名抄写员复制）的标注扩展到160页。我们可视化了这些页面上的测量结果，展示了它们不仅能够区分图形轮廓，还能发现并分析细微变化。本案例研究概述了我们方法的可扩展性及其在所需训练数据方面的节俭性，因为仅需一列文本即可对160页中的每一页计算我们的测量值。数据和代码公开于：https://malamatenia.github.io/morphology4metrology-analysis.

查看原文

查看缓存全文

缓存时间: 2026/06/12 10:52

论文页面 - 利用形态学进行历史手稿计量分析

来源: https://huggingface.co/papers/2606.09446

摘要

一种基于 transformer 的原型学习架构，能够仅凭行级转录本从历史文档中进行可扩展的古文字测量，并在仅需极少量训练数据的 160 页手抄本上证明了其有效性。

手写文本识别领域的进展已实现了历史文档的大规模转录，但仍然难以提供可供解读的视觉测量数据用于古文字学研究（即对历史字体的研究）。本文的核心洞见在于：形态学字体分析——特别是从行级转录本中学习字符原型的能力——能够定义可扩展、有意义且稳定的古文字测量指标。更具体地说，我们利用 transformer 检测架构以及基于原型的行重建模块，来学习原型字符及其出现位置、形变和定位。我们的贡献有两方面。首先，我们提出了一种深度架构和学习方法，仅需行级转录本作为监督信号即可实现高效的字符建模，显著优于可学习打字机基线，并实现了准确的字符边界框预测，从而释放了其在古文字测量中的潜力。其次，我们引入并展示了由我们的架构为字符、双字母组和图形单元间空白所启用的自动测量在古文字学上的相关性。为了演示，我们将巴黎手抄本 BnF, fr. 2813（14 世纪末由查理五世委托制作、由四位抄写员抄写）的标注扩展到 160 页。我们对这些页面上的测量结果进行了可视化，展示了它们不仅能够区分出不同的书写轮廓，还能揭示并分析细微的变化。这一案例研究概述了我们方法的可扩展性及其对训练数据的节俭性——只需单列文字即可对这 160 页的每一页进行测量。数据和代码已公开于：https://malamatenia.github.io/morphology4metrology-analysis/。

查看 arXiv 页面 (https://arxiv.org/abs/2606.09446)查看 PDF (https://arxiv.org/pdf/2606.09446)项目页面 (https://malamatenia.github.io/morphology4metrology-analysis/)GitHub12 (https://github.com/raphael-baena/morphology4metrology)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09446)

在你的代理中获取此论文：

hf papers read 2606.09446

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

RaphaelBfr/morphology4metrology 更新于1天前 (https://huggingface.co/RaphaelBfr/morphology4metrology)

引用此论文的数据集1

RaphaelBfr/morphology4metrology-bnf2813 查看器• 更新于约21小时前 • 15.1k • 38 (https://huggingface.co/datasets/RaphaelBfr/morphology4metrology-bnf2813)

引用此论文的 Spaces0

没有 Space 链接到此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.09446 以在此页面建立链接。

包含此论文的收藏0

没有包含此论文的收藏

请将此论文添加至一个收藏 (https://huggingface.co/new-collection) 以在此页面建立链接。

利用形态学进行历史文字计量分析

论文页面 - 利用形态学进行历史手稿计量分析

摘要

引用此论文的模型1

RaphaelBfr/morphology4metrology 更新于1天前 (https://huggingface.co/RaphaelBfr/morphology4metrology)

引用此论文的数据集1

RaphaelBfr/morphology4metrology-bnf2813 查看器• 更新于约21小时前 • 15.1k • 38 (https://huggingface.co/datasets/RaphaelBfr/morphology4metrology-bnf2813)

引用此论文的 Spaces0

包含此论文的收藏0

相似文章

学习古希腊字母形态的历时表征

基于历史文本的预训练语言模型

MorfFlex：处理丰富的形态学

文字穿越时间：转写在NLP中演化的全景综述

一种可复现的、面向Katharevousa希腊语议会文本的Universal Dependencies风格流水线

提交意见反馈