基于句法词典的词聚类方法增强的法语解析
摘要
本文评估了将法语句法词典Lexicon-Grammar中的数据整合到概率解析器中的效果,通过对动词进行词聚类方法,提高了法语的解析准确率。
查看缓存全文
缓存时间: 2026/06/02 15:38
# 基于句法词典的词聚类方法增强的法语解析 来源:https://arxiv.org/html/2606.00634 Anthony Sigogne 巴黎东大学,LIGM [email protected] & Matthieu Constant 巴黎东大学,LIGM [email protected] & Éric Laporte 巴黎东大学,LIGM [email protected] ###### 摘要 本文评估了将法语句法词典——词汇语法 [16](https://arxiv.org/html/2606.00634#bib.bib3) 中提取的数据整合到概率解析器中的效果。我们证明,通过对法语树库 [1](https://arxiv.org/html/2606.00634#bib.bib4) 中的动词应用聚类方法,使用基于概率上下文无关文法 [20](https://arxiv.org/html/2606.00634#bib.bib5) 的解析器在法语上获得了准确的性能。 ## 1 引言 句法词典是丰富的语言资源,可能包含对解析器有用的数据,如子范畴化框架,它为每个词条提供其句法行为的信息。许多关于概率解析的研究探讨了句法词典的使用。我们可以引用词汇功能语法 [LFG][19](https://arxiv.org/html/2606.00634#bib.bib6),22](https://arxiv.org/html/2606.00634#bib.bib9)、中心驱动短语结构语法 [HPSG][8](https://arxiv.org/html/2606.00634#bib.bib10) 和概率上下文无关文法 [PCFG][3](https://arxiv.org/html/2606.00634#bib.bib11),14](https://arxiv.org/html/2606.00634#bib.bib12)。后者将动词的配价特征纳入 PCFG,并观察到全局性能略有提升。然而,将句法数据整合到词性标签中会增加数据稀疏性的影响,尤其是当 PCFG 语法是从小型树库中提取时[^1]。[14](https://arxiv.org/html/2606.00634#bib.bib12) 被迫使用在大型原始语料上应用的无监督算法重新估计其语法参数。在法语案例中,这一观察可与 [12](https://arxiv.org/html/2606.00634#bib.bib13) 中描述的实验相关联,其中词性标签被扩展了一些句法功能[^2]。结果显示性能大幅下降。PCFG 的数据稀疏性问题也是词汇层面的。一种语言的形态越丰富,从树库构建的该语言词汇就越稀疏。尽管如此,词汇数据稀疏性的影响可以通过词聚类算法来减轻。受 [17](https://arxiv.org/html/2606.00634#bib.bib14) 聚类方法的启发,[6](https://arxiv.org/html/2606.00634#bib.bib1),5](https://arxiv.org/html/2606.00634#bib.bib2) 表明,通过用自动获得的词簇替换语料中的每个单词,他们可以改进法语上的 PCFG 解析器。他们还创建了另外两种聚类方法。第一种方法包括一个去屈折步骤,去除单词中一些被认为对解析不太重要的屈折标记。另一种方法是将每个单词替换为其词性标签和词干的组合。这两种方法都显著提高了性能。在本文中,我们提出了一种基于句法词典——词汇语法中提取的数据的聚类方法。该词典将词汇项分类到表格中,每个表格由其唯一标识符识别。词汇项是一个词干化形式,根据其含义和句法行为可以出现在一个或多个表格中。聚类方法包括将动词替换为其词性标签和表格标识符的组合。本文的目的是展示像词汇语法这样并非为解析算法开发的句法词典,能够提高概率解析器的性能。在第 2 节和第 3 节中,我们描述了实验中使用的概率解析器和树库,即法语树库。在第 4 节中,我们更精确地描述了先前关于聚类方法的工作。第 5 节介绍了词汇语法。我们详细说明了该词典中可用于解析过程的信息。然后,在第 6 节中,我们提出了将这些信息整合到解析器中的方法,并在第 7 节中描述了我们的实验并讨论了所获得的结果。 [^1]: 数据稀疏性意味着难以估计从语料中提取的稀有规则的概率。 [^2]: 原始词性标签有 28 个,每个都可以与 8 个句法功能之一组合。 ## 2 非词汇化 PCFG 解析器 我们的实验中使用的概率解析器是 Berkeley Parser[^3](此后称为 BKY)[20](https://arxiv.org/html/2606.00634#bib.bib5)。该解析器基于非词汇化的 PCFG 模型。非词汇化上下文无关文法的主要问题是非终结符编码的信息过于通用,难以区分句法歧义。BKY 的优势在于试图通过生成包含复杂符号的语法来解决这个问题。它遵循 [18](https://arxiv.org/html/2606.00634#bib.bib15) 引入的潜在标注原则。这包括迭代创建多个语法,其标签集逐渐复杂化。每次迭代中,语法中的一个符号根据树库中该符号的不同句法行为被拆分为多个符号。潜在语法的参数使用基于期望最大化 (EM) 的算法进行估计。在法语案例中,[23](https://arxiv.org/html/2606.00634#bib.bib16) 已表明 BKY 产生了最先进的性能。 [^3]: Berkeley Parser 可在 http://code.google.com/p/berkeleyparser/ 免费获取。 ## 3 法语树库 在我们的实验中,我们使用了法语树库[^4] [1](https://arxiv.org/html/2606.00634#bib.bib4) [FTB]。它由来自《世界报》的文章组成,每个句子都标注了成分树。当前,大多数关于法语解析的论文都使用 FTB 的一个特定变体,即首次在 [6](https://arxiv.org/html/2606.00634#bib.bib1) 中描述的 FTB-UC。它是 FTB 的部分修正版本,包含 12,351 个句子和 350,931 个词元。这个版本较小[^5],并且具有特定特征。首先,标签集考虑了包含形态和句法信息的丰富原始标注。结果产生了 28 个词性标签的标签集。一些具有规则句法模式的复合词被还原为包含简单词的短语。剩余的复合词被合并为单个词元,其组成部分用下划线分隔。 [^4]: 法语树库根据许可免费提供,网址为 http://www.llf.cnrs.fr/Gens/Abeille/French-Treebank-fr.php。 [^5]: 原始 FTB 包含 20,648 个句子和 580,945 个词元。 ## 4 词聚类的先前工作 许多工作使用了聚类方法来减小语料词汇的大小,从而减少词汇数据稀疏性对树库语法的影响。一种在 [7](https://arxiv.org/html/2606.00634#bib.bib17) 中描述的方法称为 CatLemma,包括将单词替换为其词性标签和词干的组合。在分析原始文本时(特别是在评估期间),他们使用统计标注器为每个单词分配词性标签和词干[^6]。与将每个单词简化为词干形式不同,[6](https://arxiv.org/html/2606.00634#bib.bib1),7](https://arxiv.org/html/2606.00634#bib.bib17) 进行了一种形态聚类,称为去屈折 [DFL],包括去除那些对确定成分的句法投射“不太重要”的形态标记。例如,动词的语气非常有帮助。另一方面,一些标记,如名词的性别或数量或动词的人称,并非那么关键。此外,保留单词的原始歧义,以便将词性标签消歧的任务委托给解析器。此算法借助形态句法词典完成。最后一种聚类方法称为 Clust,包括将每个单词替换为簇 ID。簇 ID 是通过对大型原始语料应用无监督统计算法 [4](https://arxiv.org/html/2606.00634#bib.bib18) 自动获得的。它们通过考虑单词的共现信息来计算。这种方法的主要优点是它可以与 DFL 或 CatLemma 结合。首先,使用这两种方法之一预处理原始语料,然后在此修改后的语料上计算簇。目前,这种方法允许在 FTB-UC 上获得最佳结果。 [^6]: 他们使用了标注器 MORFETTE [9](https://arxiv.org/html/2606.00634#bib.bib26),24](https://arxiv.org/html/2606.00634#bib.bib27),该标注器基于两个统计模型,一个用于标注,另一个用于词干化。这两个模型都通过平均序列感知器算法进行训练。 ## 5 词汇语法 词汇语法 [LG] 是法语最丰富的句法和词汇信息来源[^7],它不仅关注动词,还关注动名词、形容词、副词和固定句子。其开发始于 20 世纪 70 年代,由 Maurice Gross 及其团队 [16](https://arxiv.org/html/2606.00634#bib.bib3) 进行。它是一种以表格形式表示的句法词典。每个表格编码了具有若干共享句法属性(例如子范畴化信息)的特定类别的词汇项。词汇项是一个词干化形式,根据其含义和句法属性可以出现在一个或多个表格中。每个表格行对应一个词汇项,列对应一个属性(例如句法结构、论元分布等)。单元格编码词汇项是否接受给定属性。图 1 (https://arxiv.org/html/2606.00634#S5.F1) 显示了动词表 12 的样本。在这个表格中,我们可以看到动词 chérir(珍爱)接受人类主语(由属性 N0 = : Nhum 中的 = 表示),但该动词不能是不及物的(由属性 N0 V 中的 = 表示)。 [^7]: 我们也可以引用像 LVF [15](https://arxiv.org/html/2606.00634#bib.bib19)、Dicovalence [26](https://arxiv.org/html/2606.00634#bib.bib20) 和 Lefff [21](https://arxiv.org/html/2606.00634#bib.bib21) 这样的词典。 图 1:动词表 12 的样本。 最近,这些表格已被整理得一致且明确 [25](https://arxiv.org/html/2606.00634#bib.bib22),以便用于 NLP。它们还被转换为 XML 结构格式 [10](https://arxiv.org/html/2606.00634#bib.bib23)[^8]。每个词条与其表格标识符、可能的论元和句法结构相关联。对于动词,我们手动构建了表格的层级结构,分为多个层次。每个层次包含一些类,这些类将可能不共享所有定义属性但具有相对相似句法行为的 LG 表格分组。图 2 (https://arxiv.org/html/2606.00634#S5.F2) 显示了层级结构的样本。表格 4、6 和 12 被分组到一个名为 QTD2(带两个论元和小句补语的及物句)的类中。然后,此类与同一层级上层的其他类分组,形成名为 TD2(带两个论元的及物句)的类。 [^8]: 这些资源可在 http://infolingu.univ-mlv.fr/ 免费获取。 图 2:动词表格层级结构的样本。 每个层次的特征在表 1 (https://arxiv.org/html/2606.00634#S5.T1) 中给出(层次 0 代表 LG 的表格集)。我们可以指出,在动词表格中,有 5,923 个不同的动词形式,对应 13,862 个条目[^9]。列“#classes”指定了不同类的数量。列 AVG_1 和 AVG_2 分别指示每个类的平均条目数和每个不同动词形式的平均类数。 [^9]: 注意,3,121 个动词形式(3,195 个条目)是无歧义的。这意味着它们的所有条目出现在单个表格中。 表 1:动词表格层级结构的特征。 表格的层级结构具有减少与每个动词表格相关联的类数量的优点。我们将看到这种歧义减少在我们的实验中至关重要。 ## 6 基于词汇语法的词聚类 LG 包含大量可能用于解析过程的有用信息。但此类信息不易操作。我们将关注动词条目表标识符,这些标识符是其句法行为的重要提示。例如,表 31R 表明属于该表格的所有动词都是不及物的。因此,我们遵循 CatLemma 聚类方法的原则,不同之处在于,这里我们将文本中的每个动词替换为其词性标签和在 LG 表格中与该动词关联的表 ID 的组合[^10]。我们此后将此实验称为 TableClust。例如,动词 chérir(珍爱)属于表 12。因此,诱导词是 \#tag_12,其中 \#tag 是与该动词关联的词性标签。对于像 sanctionner(惩罚)这样的歧义动词,属于两个表 6 和 12,诱导词是 \#tag_6_12。然后,我们通过考虑动词表格的层级结构对之前的实验进行了变体。随着层级层次的增加,这种层级结构用于获得越来越粗粒度的动词簇,同时,语料词汇的大小也逐步减小。与标签组合的标识符取决于动词和层级结构中的特定层次。例如,属于表 6 和 12 的动词 sanctionner,在层次 1 被替换为 \#tag_QTD2。在歧义动词的情况下,对于给定层次,标识符是动词所属的所有类。此实验此后将被称为 LexClust。与 CatLemma 聚类方法一样,我们需要一个词性标注器来为文本中的每个动词分配标签和词干(可以从词干确定表 ID)。我们选择使用 MElt [13](https://arxiv.org/html/2606.00634#bib.bib24),它是针对法语的最佳标注器之一。词干化过程使用法语词典 Dela [11](https://arxiv.org/html/2606.00634#bib.bib8) 以及在歧义情况下的某些启发式方法。 [^10]: 不在 LG 中的动词保持不变。 ## 7 实验与结果 ### 7.1 评估指标 由于 FTB-UC 是一个小型语料,我们使用了交叉验证过程进行评估。该方法包括将语料分成 p 个相等的部分,然后在 p-1 个部分上进行训练,并在剩余部分上进行评估。我们可以迭代此过程 p 次。这允许我们为与初始语料一样大的样本计算平均分数。在我们的案例中,我们将参数 p 设置为 10。评估部分的结果使用称为 PARSEVAL [2](https://arxiv.org/html/2606.00634#bib.bib25) 的标准协议报告所有句子。带标签的 F 度量 [F1] 考虑了括号分配和节点标签。我们还使用了无标签和带标签的依存分数 [UAS, LAS],它们评估句子中单词之间的无标签和带标签依存关系的质量[^11]。在所有指标中忽略标点符号词元。 [^11]: 这些分数通过自动将成分树转换为依存树来计算。转换过程使用 Bonsaï 软件完成,可在 http://alpage.inria.fr/statgram/frdep/fr_stat_dep_parsing.html 获取。 ### 7.2 Berkeley 解析器设置 我们使用了增强版的 BKY,用于标注未知和罕见的法语单词 [12](https://arxiv.org/html/2606.00
相似文章
词典语法表到LMF的转换:以法语为例
描述了将法语动词词典语法表转换为词典标记框架(LMF)格式的过程,以提高自然语言处理词典的互操作性和标准化水平。
使用解析表达文法构建阿拉伯语-英语机器可读词典
本文提出了一种方法,利用解析表达文法对阿拉伯语-英语Al-Mawrid词典进行结构化处理,将词条转换为适用于自然语言处理应用的层次结构。
面向类型学可控词汇生成的模块化架构
本文提出了一种模块化框架,用于生成可发音、类型学上合理且语义结构化的工词汇,该框架使用来自PHOIBLE的音位清单和概率语法,优于确定性基线方法。
从片段到语义:重新思考多语言事实核查的证据粒度
本文介绍了SEEK,一个用于多语言事实核查中语义证据提取的框架,该框架从完整文章中构建连贯的证据块,并使用LoRA微调多语言大语言模型,在宏观F1分数上相比基线提升了高达20%。
语言模型碎片整合:基于可解释性的词汇扩展方法
# 基于可解释性的词汇扩展方法 来源:[https://arxiv.org/html/2604.16656](https://arxiv.org/html/2604.16656) ## 语言模型碎片整合:基于可解释性的词汇扩展方法 Maitrey Mehta¹, Nishant Subramani², Zhichao Xu¹, Ashim Gupta¹, Vivek Srikumar¹ 1 Kahlert School of Computing, University of Utah 2 Language Technologies Institute, Carnegie Mellon University {maitrey,svivek}@cs.utah.edu ###### 摘要 所有语言生而平等;但在词元化方面,某些语言更为平等。词元是当代大语言模型访问成本和延迟的隐藏货币。然而,许多使用非拉丁文字书写的语言却面临着糟糕的“汇率”:大语言模型需要用数倍的词元来编码与英语相同的信息。我们的分析表明,这个被称为“词元过度碎片化”的问题在现代开源大语言模型中依然存在。标准解决方案是词汇扩展,即添加模型词汇库中缺失的目标语言词汇。在这项工作中,我们全面研究并推进基于可解释性的词汇扩展这一新研究方向。我们聚焦于词汇扩展过程中的两个核心决策:应该添加哪些词汇?以及如何初始化它们对应的输入和输出嵌入? 首先,我们质疑使用基于频率的方法来选择待添加候选词汇的传统做法(这一决策长期以来被视为理所当然),并证明基于可解释性的方法能够提供更优的性能-词元效率权衡。其次,我们通过展示对于多种非拉丁文字语言相较于基线初始化方法取得的大幅提升(约20分),加强了基于可解释性的嵌入初始化的可行性。我们发现了“子词去词元化”现象,即模型在多层网络中逐步将碎片化的子词词元合并为更大的子词。基于对这一现象的分析,我们提出了FragMend,以进一步突破基于可解释性的扩展的效率上限。我们通过与强基线方法的比较验证了FragMend的有效性,并对其设计选择进行了广泛分析。