利用共现比较组装局部语法

arXiv cs.CL 2026/05/13 04:00 论文

摘要

本文提出了一种比较局部语法共现结果的方法，旨在优化葡萄牙语人名命名实体识别，并在 HAREM 数据集上取得了更高的 F-measure 分数。

arXiv:2605.11862v1 公告类型：新论文摘要：人名命名实体识别是信息提取中一项重要但非微不足道的任务。本文使用一种工具来比较从两种局部语法（LG）获得的共现结果，并突出显示其差异。我们将这些结果作为辅助手段，用于从一组 LG 中挑选出最佳方案。通过分析比较结果，我们观察到每对 LG 之间存在的包含、交集和析取关系，这有助于我们组装出表现最佳的语法。该方法被应用于一个从葡萄牙语文本中提取人名的案例研究。我们将增强后的语法应用于第二届 HAREM 的黄金标准语料库。获得的 F-measure 为 76.86，相较于葡萄牙语领域的最先进水平提高了 6 个百分点。

查看原文

查看缓存全文

缓存时间: 2026/05/13 06:19

# 作为组装局部语法手段的一致性比较

**来源：** https://arxiv.org/html/2605.11862

**11institutetext:** Universidade Federal do Espírito Santo - UFES
Av. Fernando Ferrari, 514, 29075-910 Vitória, ES, Brazil

**11email:** [email protected], [email protected]

**22institutetext:** Université Paris-Est, LIGM, UPEM/CNRS/ENPC/ESIEE, Champs-sur-Marne, 77420, France

**22email:** [email protected]

**Elias de Oliveira** | **Eric Laporte**
https://orcid.org/0000-0002-0984-0781

###### 摘要

人名命名实体识别（Named Entity Recognition, NER）是信息提取中一项重要但不简单的任务。本文使用了一种工具来比较从两个局部语法（Local Grammar, LG）获得的一致性（concordances），并突出其差异。我们将这些结果用作辅助手段，以便从一组LG中筛选出最优者。通过分析这些比较结果，我们观察到每对LG之间存在的包含、交集和互斥（disjunction）关系，这帮助我们组装出效果最好的语法。这种方法被应用于一个从葡萄牙语文本中提取人名的案例研究。我们将增强后的语法应用于第二次HAREM评估的金标准集合（Gold Collection）。获得的F1分数为76.86，相较于葡萄牙语领域的现有最佳水平（state-of-the-art）提升了6个百分点。

## 1 引言

命名实体识别（NER）涉及自动识别如人物、地点和组织等实体的名称。人名是信息的基础来源。许多应用寻求关于个体及其关系的信息，例如在社交网络的背景下。然而，提取此类命名实体（NE）具有挑战性：人名属于开放词类，包含大量词汇且每天都在增长 [7](https://arxiv.org/html/2605.11862#bib.bib21)。“很大一部分NER研究致力于英语的研究，因为英语作为国际通用主导语言具有重要意义” [14](https://arxiv.org/html/2605.11862#bib.bib91), 第470页。葡萄牙语领域旨在实现此目的的系统发展的一个重要推动力来自于HAREM [13](https://arxiv.org/html/2605.11862#bib.bib18), [8](https://arxiv.org/html/2605.11862#bib.bib2) 评估活动，这是由Linguateca组织的该领域的联合评估 [6](https://arxiv.org/html/2605.11862#bib.bib24)。第一和第二次HAREM中使用的标注语料库，即金标准集合（Golden Collection, GC），是近期葡萄牙语NER工作的参考基准。

开发NER系统的主要方法包括：(i) 机器学习，系统从训练语料库中学习识别和分类NE；(ii) 语言学方法，涉及手动描述NE可能出现的规则；(iii) 结合前两种方法的混合方法。“局部语法（LG）是有限状态语法或有限状态自动机，用于表示自然语言话语的集合” [5](https://arxiv.org/html/2605.11862#bib.bib43), 第1页。由Maurice Gross [4](https://arxiv.org/html/2605.11862#bib.bib42) 引入，它们作为一种将具有共同特征（通常是句法或语义）的短语分组的方式。以LG形式描述规则以构建信息提取（IE）系统需要人类专业知识和语言学培训；为此任务提供的计算辅助工具很少。文献 [5](https://arxiv.org/html/2605.11862#bib.bib43) 提出了一种围绕关键词或语义单元构建LG的方法。从葡萄牙语文本中提取人名的LG在文献 [2](https://arxiv.org/html/2605.11862#bib.bib14) 和 [10](https://arxiv.org/html/2605.11862#bib.bib58) 中有所呈现。在第二次HAREM [8](https://arxiv.org/html/2605.11862#bib.bib2) 中，使用语法规则和维基百科作为知识源的Rembrandt系统 [3](https://arxiv.org/html/2605.11862#bib.bib20) 在“人物”类别中排名最佳。对识别葡萄牙语文本中NE的四种工具的对比 [1](https://arxiv.org/html/2605.11862#bib.bib47) 表明，基于规则的方法在人名识别方面最为有效。最近，LG已成功集成到葡萄牙语NER的混合方法中 [11](https://arxiv.org/html/2605.11862#bib.bib59)。

本文描述如何使用Unitex一致性比较工具 [15](https://arxiv.org/html/2605.11862#bib.bib22) 辅助构建LG。我们的起点是一组用于识别葡萄牙语文本中人名LG。通过比较它们获得的一致性，我们在集合论意义上发现了一些它们之间的关系。考虑到这些关系，我们挑选了最佳LG并将它们组合起来，以实现更好的性能。

本文结构如下。第2节介绍本研究使用的方法论。第3节展示研究结果，第4节提出结论及未来研究方向。

## 2 方法论

我们实验的输入是一个用于识别人名的小规模LG库。其中一些来自文献（例如文献 [2](https://arxiv.org/html/2605.11862#bib.bib14) 中提出的），其他则由我们创建。所有这些LG均使用Unitex [15](https://arxiv.org/html/2605.11862#bib.bib22) 创建和处理，这是一个最初由法国巴黎-马恩拉瓦莱大学开发的开源系统。局部语法表示为一组一个或多个图，称为局部语法图（Local Grammar Graphs, LGG）。Unitex允许创建LGG、预处理文本、将词典应用于文本、应用LG提取信息、生成一致性以及比较一致性。

图1 [1](https://arxiv.org/html/2605.11862#S2.F1) 所示的LGG识别尊称（如Sr., Sra. 和 Dr.（“先生”、“夫人”、“博士”）），后跟首字母大写的单词，这些单词通过Unitex词典中的代码进行识别。`after` 之后的 `<<...>>` 表示对首字母大写的单词应用形态过滤器，指示它们必须至少包含两个字符。这可以防止识别句子开头的定冠词等。在首字母大写的单词之间，可能出现介词或缩写，并通过两个图 `Preposicao.grf` 和 `Abreviacoes.grf` 进行识别，这两个图是单独创建并作为子图包含在内的。该图识别的短语示例（出现情况）包括 `Sra. Joana da Silva` 和 `Dr. Antônio de Oliveira Salazar`。

附带一行上下文的出现列表称为一致性（concordance）。

> **图1：LGG G_{1} (ReconheceFormasDeTratamento.grf)**
> Unitex允许将输出附加到图框。输出以粗体显示在框下方。在图1 [1](https://arxiv.org/html/2605.11862#S2.F1) 中，`“name”` 和 显示在箭头下方，代表此类输出。当图在“与输入文本合并（MERGE with input text）”模式下应用时，Unitex会将它们插入一致性文件中。因此，识别出的名称在一致性文件中用这些XML标签括起来。

库中的LG规模较小，但可以组合以构成更大的语法来识别人名。我们将库中的LG应用于第二次HAREM的金标准集合（GC），为每个LG生成一个一致性文件。我们使用了葡萄牙语和英语词典，因为GC文本中出现了一些英语人名。第二次HAREM [8](https://arxiv.org/html/2605.11862#bib.bib2) 的GC是129个标注文本的子集。这些文本具有不同的文体类型，使用欧洲或巴西葡萄牙语编写。HAREM将NE分为十类：抽象、事件、事物、地点、作品、组织、人物、时间、值和其他。人名的重点在于“人物”类别下的一个子类型，由代码 `PERSON (INDIVIDUAL)` 表示。在第二次HAREM的GC中，有1,609个NE标注有此代码。

### 2.1 一致性比较

我们使用Unitex提供的ConcorDiff一致性比较工具对所有一致性进行两两比较（每对文件）。该工具可应用于任何一对一致性文件，前提它们采用Unitex格式，该格式在手册 [9](https://arxiv.org/html/2605.11862#bib.bib19) 中有公开文档说明。Unitex ConcorDiff程序逐行比较两个一致性文件并显示其差异。结果是一个HTML页面，交替显示两个一致性的行，当某次出现仅存在于其中一个文件时则留空行。示例如图2 [2](https://arxiv.org/html/2605.11862#S2.F2) 所示。

> **图2：一致性比较文件的一部分**
> 粉色背景阴影的行（第1、3、5和7行）来自第一个一致性（ConcorDiff的第一个参数），绿色背景阴影的行（第2、4和6行）来自另一个一致性（ConcorDiff的第二个参数）。

蓝色字符的行（第1和2行）是两个一致性共有的出现。在图2 [2](https://arxiv.org/html/2605.11862#S2.F2) 所示的示例中，这意味着两个LG都识别出了 `Michael Jackson`。红色字符的行（第3和4行）对应仅部分重叠的出现，例如当一个一致性中的出现是另一个一致性中出现的部分时。在示例中，一个LG识别出 `Luther King`，另一个识别出 `Luther`。绿色字符的行（第5和7行）是仅出现在两个一致性之一的出现。`Antonio Ricardo` 和 `Chico Buarque` 仅由第一个LG识别。紫色字符的行表示插入不同输出的相同出现，本例中未发生这种情况。

随后，我们分析了由ConcorDiff生成的文件。

### 2.2 基于一致性比较组合LG

设 $G_X$ 和 $G_Y$ 为两个LG，设 $C_X$ 和 $C_Y$ 为将它们应用于同一语料库时获得的相应一致性文件。因此，$C_X$ 是 $G_X$ 识别出的出现集合，$C_Y$ 是 $G_Y$ 识别出的出现集合。设 $C_X \times C_Y$ 为显示一致性 $C_X$ 和 $C_Y$ 之间差异并通过Unitex的ConcorDiff程序获得的文件。在 $C_X \times C_Y$ 中，$C_X$ 的元素 $x_1, x_2, ..., x_n$ 显示在粉色背景上，而 $C_Y$ 的元素 $y_1, y_2, ..., y_m$ 显示在绿色背景上。$C_X$ 和 $C_Y$ 之间可能存在某些集合论关系，如包含、交集或互斥，这些关系可以通过分析 $C_X \times C_Y$ 观察到。

> **图3：LGG G_{2} (ReconheceNomesCompostos.grf)**
> 考虑例如LG $G_1$（图1 [1](https://arxiv.org/html/2605.11862#S2.F1)）和 $G_2$（图3 [3](https://arxiv.org/html/2605.11862#S2.F3)）。$G_2$ 通过词典代码 `N+PR`（用于专有名词）和 `Hum`（用于指代人类的普通名词）识别存储在词典中的人名。在将英语词典应用于输入文本后，该LG可识别多词人名，如 `Marilyn Monroe`, `Cameron Diaz` 和 `Albert Einstein`。

> **图4：一致性比较 C_{1} \times C_{2} 的一部分**
> 图4 [4](https://arxiv.org/html/2605.11862#S2.F4) 显示了一致性比较 $C_1 \times C_2$ 的一部分。第一行 $y_1$ 包括由 $G_2$ 识别的名字 `Jimmy Carter`。显示在粉色背景上的第一行 $x_1$ 包括出现在 `D.` 之后并由 $G_1$ 识别的名字 `Afonso Henriques`。由于绿色字符的行是由两个图之一唯一识别的出现，前两次出现仅由 $G_2$ 识别，最后一次仅由 $G_1$ 识别。如果比较中的所有行均为绿色字符并分布在两种背景颜色之间，则 $C_1$ 和 $C_2$ 是不相交集合：因此，两个LG $G_1$ 和 $G_2$ 都值得保留为语法的子图，因为它们识别不同名字。

表1 [5](https://arxiv.org/html/2605.11862#S2.T1) 总结了识别出的主要集合论关系。每种情况在LG之间的优先级方面都有后果，例如：如果保留 $G_Y$，则可以丢弃 $G_X$。

> **表1：通过一致性比较观察到的主要关系**
> 1. $C_X \sim C_Y \Leftrightarrow (n=m \text{ 且 } \forall i \;\; x_i \text{ 重叠 } y_i)$

在分析了所有LG对之间的关系后，我们选择了一组LG子集，并通过在主图中调用它们将它们组合成一个更大的LG（30个LGG）。

## 3 结果与讨论

我们无法将获得LG的性能与初始小规模LG集合进行比较，因为这些集合并未共同构成单个标注器。相反，我们仅评估了两个标注器，一个基于获得的LG，另一个基于其增强版本，并将结果与广泛知名的参考系统Rembrandt进行比较。

我们将获得的LG应用于HAREM语料库，并生成一个包含已识别NE的XML文件，按照第二次HAREM的指导方针进行标注。由LG识别但在文本中孤立出现的人名部分也会被标注。该文件提交至SAHARA [12](https://arxiv.org/html/2605.11862#bib.bib23) 进行性能评估。SAHARA是一个用于HAREM的在线自动评估系统，在用户配置评估并提交XML标注文件后，计算NER系统的精确率、召回率和F1分数。

将LG应用于第二次HAREM的GC所获得的结果为：精确率59.06%，召回率55.22%，F1分数57.07。

随后，我们采用手动策略来提高LG的性能。在第二次HAREM中，某些小写字母的单词应构成NE的一部分 [1](http://www.linguateca.pt/aval_conjunta/HAREM/minusculas.html)。例如，图1 [1](https://arxiv.org/html/2605.11862#S2.F1) 中LGG识别的尊称以及出现在名字前的人物社会地位。在HAREM提供的示例中 [2](http://www.linguateca.pt/aval_conjunta/HAREM/ExemplarioSegundoHAREM.pdf)，`A rainha Isabel II surpreendeu a Inglaterra`（“伊丽莎白二世女王令英格兰震惊”），不仅名字 `Isabel`，整个短语 `rainha Isabel II`（“伊丽莎白二世女王”）都应标记为人名。

我们通过简单地将标签 `()` 在图中移动到尊称之前，调整了LGG `ReconheceFormasDeTratamento.grf` 以解决此问题，从而使尊称属于被标记的NE。此外，我们还使用这些全小写字母的单词来识别“人物”类别的“职位（position）”子类别（表示为 `PERSON(POSITION)`），以及识别左侧上下文中有社会职位名词的人名。

最终LG获得的结果见表2 [6](https://arxiv.org/html/2605.11862#S3.T2)。这些结果是通过SAHARA选择自定义设置 `PERSON(INDIVIDUAL)` 获得的。该表还显示了SAHARA为Rembrandt计算的度量，Rembrandt是第二次HAREM“人物”类别中性能最好的系统。

> **表2：考虑 PERSON(INDIVIDUAL) 的结果：Rembrandt vs. 最终LG**

该LG优于Rembrandt。LG的召回率比Rembrandt高出约10个百分点。尽管我们的LG仅识别“人物”类别的“个体”和“职位”子类型，但其评估也通过SAHARA选择 `PERSON(*)` 设置针对所有类型的类别进行。将获得的

利用共现比较组装局部语法

相似文章

当相似意味着不同：评估LLM在阿拉伯语-希伯来语同源词上的表现

EmbGen：利用重组语料库进行教学

生物医学命名实体识别与实体链接基准测试究竟衡量什么？一个语料库中心的诊断框架

缩小CRAC 2026差距：基于LLM的多语言共指解析的两阶段自适应方法

错误编码：多语言语法错误纠正的上下文示例表征检索

提交意见反馈