利用共现比较组装局部语法
摘要
本文提出了一种比较局部语法共现结果的方法,旨在优化葡萄牙语人名命名实体识别,并在 HAREM 数据集上取得了更高的 F-measure 分数。
arXiv:2605.11862v1 公告类型:新论文
摘要:人名命名实体识别是信息提取中一项重要但非微不足道的任务。本文使用一种工具来比较从两种局部语法(LG)获得的共现结果,并突出显示其差异。我们将这些结果作为辅助手段,用于从一组 LG 中挑选出最佳方案。通过分析比较结果,我们观察到每对 LG 之间存在的包含、交集和析取关系,这有助于我们组装出表现最佳的语法。该方法被应用于一个从葡萄牙语文本中提取人名的案例研究。我们将增强后的语法应用于第二届 HAREM 的黄金标准语料库。获得的 F-measure 为 76.86,相较于葡萄牙语领域的最先进水平提高了 6 个百分点。
查看缓存全文
缓存时间: 2026/05/13 06:19
# 作为组装局部语法手段的一致性比较 **来源:** https://arxiv.org/html/2605.11862 **11institutetext:** Universidade Federal do Espírito Santo - UFES Av. Fernando Ferrari, 514, 29075-910 Vitória, ES, Brazil **11email:** [email protected], [email protected] **22institutetext:** Université Paris-Est, LIGM, UPEM/CNRS/ENPC/ESIEE, Champs-sur-Marne, 77420, France **22email:** [email protected] **Elias de Oliveira** | **Eric Laporte** https://orcid.org/0000-0002-0984-0781 ###### 摘要 人名命名实体识别(Named Entity Recognition, NER)是信息提取中一项重要但不简单的任务。本文使用了一种工具来比较从两个局部语法(Local Grammar, LG)获得的一致性(concordances),并突出其差异。我们将这些结果用作辅助手段,以便从一组LG中筛选出最优者。通过分析这些比较结果,我们观察到每对LG之间存在的包含、交集和互斥(disjunction)关系,这帮助我们组装出效果最好的语法。这种方法被应用于一个从葡萄牙语文本中提取人名的案例研究。我们将增强后的语法应用于第二次HAREM评估的金标准集合(Gold Collection)。获得的F1分数为76.86,相较于葡萄牙语领域的现有最佳水平(state-of-the-art)提升了6个百分点。 ## 1 引言 命名实体识别(NER)涉及自动识别如人物、地点和组织等实体的名称。人名是信息的基础来源。许多应用寻求关于个体及其关系的信息,例如在社交网络的背景下。然而,提取此类命名实体(NE)具有挑战性:人名属于开放词类,包含大量词汇且每天都在增长 [7](https://arxiv.org/html/2605.11862#bib.bib21)。“很大一部分NER研究致力于英语的研究,因为英语作为国际通用主导语言具有重要意义” [14](https://arxiv.org/html/2605.11862#bib.bib91), 第470页。葡萄牙语领域旨在实现此目的的系统发展的一个重要推动力来自于HAREM [13](https://arxiv.org/html/2605.11862#bib.bib18), [8](https://arxiv.org/html/2605.11862#bib.bib2) 评估活动,这是由Linguateca组织的该领域的联合评估 [6](https://arxiv.org/html/2605.11862#bib.bib24)。第一和第二次HAREM中使用的标注语料库,即金标准集合(Golden Collection, GC),是近期葡萄牙语NER工作的参考基准。 开发NER系统的主要方法包括:(i) 机器学习,系统从训练语料库中学习识别和分类NE;(ii) 语言学方法,涉及手动描述NE可能出现的规则;(iii) 结合前两种方法的混合方法。“局部语法(LG)是有限状态语法或有限状态自动机,用于表示自然语言话语的集合” [5](https://arxiv.org/html/2605.11862#bib.bib43), 第1页。由Maurice Gross [4](https://arxiv.org/html/2605.11862#bib.bib42) 引入,它们作为一种将具有共同特征(通常是句法或语义)的短语分组的方式。以LG形式描述规则以构建信息提取(IE)系统需要人类专业知识和语言学培训;为此任务提供的计算辅助工具很少。文献 [5](https://arxiv.org/html/2605.11862#bib.bib43) 提出了一种围绕关键词或语义单元构建LG的方法。从葡萄牙语文本中提取人名的LG在文献 [2](https://arxiv.org/html/2605.11862#bib.bib14) 和 [10](https://arxiv.org/html/2605.11862#bib.bib58) 中有所呈现。在第二次HAREM [8](https://arxiv.org/html/2605.11862#bib.bib2) 中,使用语法规则和维基百科作为知识源的Rembrandt系统 [3](https://arxiv.org/html/2605.11862#bib.bib20) 在“人物”类别中排名最佳。对识别葡萄牙语文本中NE的四种工具的对比 [1](https://arxiv.org/html/2605.11862#bib.bib47) 表明,基于规则的方法在人名识别方面最为有效。最近,LG已成功集成到葡萄牙语NER的混合方法中 [11](https://arxiv.org/html/2605.11862#bib.bib59)。 本文描述如何使用Unitex一致性比较工具 [15](https://arxiv.org/html/2605.11862#bib.bib22) 辅助构建LG。我们的起点是一组用于识别葡萄牙语文本中人名LG。通过比较它们获得的一致性,我们在集合论意义上发现了一些它们之间的关系。考虑到这些关系,我们挑选了最佳LG并将它们组合起来,以实现更好的性能。 本文结构如下。第2节介绍本研究使用的方法论。第3节展示研究结果,第4节提出结论及未来研究方向。 ## 2 方法论 我们实验的输入是一个用于识别人名的小规模LG库。其中一些来自文献(例如文献 [2](https://arxiv.org/html/2605.11862#bib.bib14) 中提出的),其他则由我们创建。所有这些LG均使用Unitex [15](https://arxiv.org/html/2605.11862#bib.bib22) 创建和处理,这是一个最初由法国巴黎-马恩拉瓦莱大学开发的开源系统。局部语法表示为一组一个或多个图,称为局部语法图(Local Grammar Graphs, LGG)。Unitex允许创建LGG、预处理文本、将词典应用于文本、应用LG提取信息、生成一致性以及比较一致性。 图1 [1](https://arxiv.org/html/2605.11862#S2.F1) 所示的LGG识别尊称(如Sr., Sra. 和 Dr.(“先生”、“夫人”、“博士”)),后跟首字母大写的单词,这些单词通过Unitex词典中的代码进行识别。`after` 之后的 `<<...>>` 表示对首字母大写的单词应用形态过滤器,指示它们必须至少包含两个字符。这可以防止识别句子开头的定冠词等。在首字母大写的单词之间,可能出现介词或缩写,并通过两个图 `Preposicao.grf` 和 `Abreviacoes.grf` 进行识别,这两个图是单独创建并作为子图包含在内的。该图识别的短语示例(出现情况)包括 `Sra. Joana da Silva` 和 `Dr. Antônio de Oliveira Salazar`。 附带一行上下文的出现列表称为一致性(concordance)。 > **图1:LGG G_{1} (ReconheceFormasDeTratamento.grf)** > Unitex允许将输出附加到图框。输出以粗体显示在框下方。在图1 [1](https://arxiv.org/html/2605.11862#S2.F1) 中,`“name”` 和 显示在箭头下方,代表此类输出。当图在“与输入文本合并(MERGE with input text)”模式下应用时,Unitex会将它们插入一致性文件中。因此,识别出的名称在一致性文件中用这些XML标签括起来。 库中的LG规模较小,但可以组合以构成更大的语法来识别人名。我们将库中的LG应用于第二次HAREM的金标准集合(GC),为每个LG生成一个一致性文件。我们使用了葡萄牙语和英语词典,因为GC文本中出现了一些英语人名。第二次HAREM [8](https://arxiv.org/html/2605.11862#bib.bib2) 的GC是129个标注文本的子集。这些文本具有不同的文体类型,使用欧洲或巴西葡萄牙语编写。HAREM将NE分为十类:抽象、事件、事物、地点、作品、组织、人物、时间、值和其他。人名的重点在于“人物”类别下的一个子类型,由代码 `PERSON (INDIVIDUAL)` 表示。在第二次HAREM的GC中,有1,609个NE标注有此代码。 ### 2.1 一致性比较 我们使用Unitex提供的ConcorDiff一致性比较工具对所有一致性进行两两比较(每对文件)。该工具可应用于任何一对一致性文件,前提它们采用Unitex格式,该格式在手册 [9](https://arxiv.org/html/2605.11862#bib.bib19) 中有公开文档说明。Unitex ConcorDiff程序逐行比较两个一致性文件并显示其差异。结果是一个HTML页面,交替显示两个一致性的行,当某次出现仅存在于其中一个文件时则留空行。示例如图2 [2](https://arxiv.org/html/2605.11862#S2.F2) 所示。 > **图2:一致性比较文件的一部分** > 粉色背景阴影的行(第1、3、5和7行)来自第一个一致性(ConcorDiff的第一个参数),绿色背景阴影的行(第2、4和6行)来自另一个一致性(ConcorDiff的第二个参数)。 蓝色字符的行(第1和2行)是两个一致性共有的出现。在图2 [2](https://arxiv.org/html/2605.11862#S2.F2) 所示的示例中,这意味着两个LG都识别出了 `Michael Jackson`。红色字符的行(第3和4行)对应仅部分重叠的出现,例如当一个一致性中的出现是另一个一致性中出现的部分时。在示例中,一个LG识别出 `Luther King`,另一个识别出 `Luther`。绿色字符的行(第5和7行)是仅出现在两个一致性之一的出现。`Antonio Ricardo` 和 `Chico Buarque` 仅由第一个LG识别。紫色字符的行表示插入不同输出的相同出现,本例中未发生这种情况。 随后,我们分析了由ConcorDiff生成的文件。 ### 2.2 基于一致性比较组合LG 设 $G_X$ 和 $G_Y$ 为两个LG,设 $C_X$ 和 $C_Y$ 为将它们应用于同一语料库时获得的相应一致性文件。因此,$C_X$ 是 $G_X$ 识别出的出现集合,$C_Y$ 是 $G_Y$ 识别出的出现集合。设 $C_X \times C_Y$ 为显示一致性 $C_X$ 和 $C_Y$ 之间差异并通过Unitex的ConcorDiff程序获得的文件。在 $C_X \times C_Y$ 中,$C_X$ 的元素 $x_1, x_2, ..., x_n$ 显示在粉色背景上,而 $C_Y$ 的元素 $y_1, y_2, ..., y_m$ 显示在绿色背景上。$C_X$ 和 $C_Y$ 之间可能存在某些集合论关系,如包含、交集或互斥,这些关系可以通过分析 $C_X \times C_Y$ 观察到。 > **图3:LGG G_{2} (ReconheceNomesCompostos.grf)** > 考虑例如LG $G_1$(图1 [1](https://arxiv.org/html/2605.11862#S2.F1))和 $G_2$(图3 [3](https://arxiv.org/html/2605.11862#S2.F3))。$G_2$ 通过词典代码 `N+PR`(用于专有名词)和 `Hum`(用于指代人类的普通名词)识别存储在词典中的人名。在将英语词典应用于输入文本后,该LG可识别多词人名,如 `Marilyn Monroe`, `Cameron Diaz` 和 `Albert Einstein`。 > **图4:一致性比较 C_{1} \times C_{2} 的一部分** > 图4 [4](https://arxiv.org/html/2605.11862#S2.F4) 显示了一致性比较 $C_1 \times C_2$ 的一部分。第一行 $y_1$ 包括由 $G_2$ 识别的名字 `Jimmy Carter`。显示在粉色背景上的第一行 $x_1$ 包括出现在 `D.` 之后并由 $G_1$ 识别的名字 `Afonso Henriques`。由于绿色字符的行是由两个图之一唯一识别的出现,前两次出现仅由 $G_2$ 识别,最后一次仅由 $G_1$ 识别。如果比较中的所有行均为绿色字符并分布在两种背景颜色之间,则 $C_1$ 和 $C_2$ 是不相交集合:因此,两个LG $G_1$ 和 $G_2$ 都值得保留为语法的子图,因为它们识别不同名字。 表1 [5](https://arxiv.org/html/2605.11862#S2.T1) 总结了识别出的主要集合论关系。每种情况在LG之间的优先级方面都有后果,例如:如果保留 $G_Y$,则可以丢弃 $G_X$。 > **表1:通过一致性比较观察到的主要关系** > 1. $C_X \sim C_Y \Leftrightarrow (n=m \text{ 且 } \forall i \;\; x_i \text{ 重叠 } y_i)$ 在分析了所有LG对之间的关系后,我们选择了一组LG子集,并通过在主图中调用它们将它们组合成一个更大的LG(30个LGG)。 ## 3 结果与讨论 我们无法将获得LG的性能与初始小规模LG集合进行比较,因为这些集合并未共同构成单个标注器。相反,我们仅评估了两个标注器,一个基于获得的LG,另一个基于其增强版本,并将结果与广泛知名的参考系统Rembrandt进行比较。 我们将获得的LG应用于HAREM语料库,并生成一个包含已识别NE的XML文件,按照第二次HAREM的指导方针进行标注。由LG识别但在文本中孤立出现的人名部分也会被标注。该文件提交至SAHARA [12](https://arxiv.org/html/2605.11862#bib.bib23) 进行性能评估。SAHARA是一个用于HAREM的在线自动评估系统,在用户配置评估并提交XML标注文件后,计算NER系统的精确率、召回率和F1分数。 将LG应用于第二次HAREM的GC所获得的结果为:精确率59.06%,召回率55.22%,F1分数57.07。 随后,我们采用手动策略来提高LG的性能。在第二次HAREM中,某些小写字母的单词应构成NE的一部分 [1](http://www.linguateca.pt/aval_conjunta/HAREM/minusculas.html)。例如,图1 [1](https://arxiv.org/html/2605.11862#S2.F1) 中LGG识别的尊称以及出现在名字前的人物社会地位。在HAREM提供的示例中 [2](http://www.linguateca.pt/aval_conjunta/HAREM/ExemplarioSegundoHAREM.pdf),`A rainha Isabel II surpreendeu a Inglaterra`(“伊丽莎白二世女王令英格兰震惊”),不仅名字 `Isabel`,整个短语 `rainha Isabel II`(“伊丽莎白二世女王”)都应标记为人名。 我们通过简单地将标签 `()` 在图中移动到尊称之前,调整了LGG `ReconheceFormasDeTratamento.grf` 以解决此问题,从而使尊称属于被标记的NE。此外,我们还使用这些全小写字母的单词来识别“人物”类别的“职位(position)”子类别(表示为 `PERSON(POSITION)`),以及识别左侧上下文中有社会职位名词的人名。 最终LG获得的结果见表2 [6](https://arxiv.org/html/2605.11862#S3.T2)。这些结果是通过SAHARA选择自定义设置 `PERSON(INDIVIDUAL)` 获得的。该表还显示了SAHARA为Rembrandt计算的度量,Rembrandt是第二次HAREM“人物”类别中性能最好的系统。 > **表2:考虑 PERSON(INDIVIDUAL) 的结果:Rembrandt vs. 最终LG** 该LG优于Rembrandt。LG的召回率比Rembrandt高出约10个百分点。尽管我们的LG仅识别“人物”类别的“个体”和“职位”子类型,但其评估也通过SAHARA选择 `PERSON(*)` 设置针对所有类型的类别进行。将获得的
相似文章
当相似意味着不同:评估LLM在阿拉伯语-希伯来语同源词上的表现
本文介绍了SemCog Bench,这是一个精心整理的基准测试,包含1,858个阿拉伯语-希伯来语词对,并带有句子级别的注释,用于评估LLM区分真同源词、假同源词和借词的能力。结果显示,模型在真同源词上准确率很高,但在假同源词上准确率大幅下降,突显了跨语言语义推理中的一个关键局限性。
EmbGen:利用重组语料库进行教学
EmbGen 是一种合成数据生成流水线,它通过嵌入相似度将语料库重组为实体-描述配对,从而生成多样化的问答对,用于在专业领域微调小型语言模型,显著提升了事实准确性。
生物医学命名实体识别与实体链接基准测试究竟衡量什么?一个语料库中心的诊断框架
本文提出了一种以语料库为中心的诊断框架,用于分析生物医学NER和EL基准测试,揭示了九个语料库之间的显著差异,并论证了标准统计量不足以描述评估需求。
缩小CRAC 2026差距:基于LLM的多语言共指解析的两阶段自适应方法
本文提出了一种基于LLM的多语言共指解析的两阶段自适应方法,在CRAC 2026的LLM赛道中以74.32的CoNLL F1分数获得第一名。该方法使用多语言基适配器后接数据集特定适配器对Gemma-3-27b进行微调。
错误编码:多语言语法错误纠正的上下文示例表征检索
本文介绍了语法错误表征(GER),一种基于错误模式而非语义相似性检索上下文示例的新方法,显著提升了具有上下文学习能力的大型语言模型在多语言语法错误纠正中的表现。