基于理论语言学专家标准的习语性数据驱动方法

arXiv cs.CL 论文

摘要

本文基于16项理论标准,对多词表达(MWEs)进行数据驱动分析,并由语言学专家进行标注,发现没有完全习语化的表达,且词汇标准影响最大。

arXiv:2605.19575v1 公告类型:新 摘要:本文观察了基于16项词汇、语法及其他标准(这些标准源自关于习语性概念的理论书籍和论文)对286个多词表达(MWEs)的数据分析。MWEs来自相同的理论来源,并由一组语言学专家按这些类别进行标注。类别分布表明,不存在绝对习语化的表达。词汇标准似乎影响最大;语法标准受限于特定条件;过时词汇和语法的存在影响MWE被单个词语替换的能力。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:26

# 基于理论语言学专家标准的习语性数据驱动方法
来源:https://arxiv.org/html/2605.19575
###### 摘要

本文根据理论专著与论文中关于习语性概念的16项词汇、语法及其他标准,对286个多词表达(MWEs)进行了数据分析。MWEs来源于相同的理论文献,并由一组语言学专家根据这些类别进行标注。类别分布显示,不存在绝对习语化的表达。词汇标准似乎影响最大;语法标准则受特定条件约束;古旧词汇与语法结构的存在会影响MWE被单个词汇替换的能力。

\NAT@set@cites

基于理论语言学专家标准的习语性数据驱动方法

埃琳娜·米哈科娃,阿纳斯塔西娅·维什尼亚科娃,阿纳斯塔西娅·德罗兹多娃,波琳娜·加文,亚历山大·日米霍夫,季莫费·普罗塔索夫
秋明国立大学,俄罗斯秋明市沃洛达尔斯基大街6号
阿斯顿大学,英国伯明翰阿斯顿街B4 7ET
[email protected], [email protected], [email protected]
[email protected], [email protected], [email protected]

摘要内容

## 1. 引言

多词表达(MWEs)是文本中出现的词位组合,在语言学上比自由词组更为复杂,可能以多种方式干扰自动文本处理。甚至围绕它们的术语体系也相当庞大,缺乏普遍接受的定义,因此常常依赖于具体的处理方法。这些方法的共同点在于理解到,MWE中的词位不能完全等同于自由词组中的词位。

总结MWE处理最新方法的著作不时发表(Pearce, 2002;Piao等人, 2005;Constant等人, 2017;Ashok等人, 2019)。而该领域的主要国际活动可能就是每年一度的ACL关联的MWE研讨会。近年来,我们观察到一种针对特定语言评估方法的趋势,例如LREC研讨会“迈向多词表达共享任务”(MWE 2008)就针对英语、德语、捷克语、爱沙尼亚语等语言展开了讨论(Grégoire等人, 2008)。随后出现了阿拉伯语(Attia等人, 2010)、俄语(Tutubalina, 2015)、波兰语(Chrząszcz, 2016)、西班牙语和巴斯克语(Iñurrieta等人, 2017)、爱尔兰语(Walsh等人, 2019)、保加利亚语和罗马尼亚语(Barbu Mititelu等人, 2019)、塞尔维亚语(Stanković等人, 2020)等。目前,讨论翻译与对齐也是一种趋势(Lam等人, 2015;Fisas等人, 2020;Han等人, 2020)。最近一次的LREC MWE研讨会(Bhatia等人, 2022)讨论了启发式与机器学习方法在检测中的应用、标注工具包、低资源语料库、比喻性语言等。然而,关于MWE本质的讨论仍在继续。在我们的研究中,我们加入这些讨论,并试图审视其中尚未得到足够重视的一个方面。

在我们的研究中,我们首先描述了理论界和现代应用领域对搭配的分类方法,更多地关注可称为“数据驱动”的方法。其次,我们提出了一个包含16项语言学标准的模型,这些标准源自语言学家们的理论著作。该模型涵盖词汇、语义、语法和语用标准。第三,我们从相同著作中摘取MWEs,并根据这些标准进行标注(即判断相关特征是否在MWE中体现)。我们采用这种特定MWE收集方法的原因在于,我们相信这些由理论家提出的例子是展示习语性典型特征的金标准。第四,我们将标准分为四组,并对语料库进行向量化,以便将其建模为3D立方体中的一组点。最后,我们观察这些点的聚类情况,并总结它们在多维向量空间中的分组方式,以及这揭示了习语性的何种本质。

## 2. 搭配分类的方法

“MWE性”的统计标准。Baldwin和Kim(2010)强调,MWE允许使用相对简洁的词汇表来创造意义的细微差别。MWE中的非自由性,或者说连接强度,通常被称为习语性——“与组成词位基本属性相比的标记性或偏离”(同上)。习语性体现在“词汇、句法、语义、语用和/或统计层面”(同上)。

统计方法侧重于从特定词组内部以及自由语境中词位的共现来推断习语性。该任务中最常用的统计度量包括:互信息(Church和Hanks, 1990)、似然比检验(Dunning, 1993)、代价准则(Kita等人, 1994)。Pecina(2008)列举了55种“用于MWE候选排序的词汇关联度量”。这些方法的输出是一个数值,用于评估习语性的强度。据此,MWEs被排列(排序),但很难被分类。反之,这个过程通常会导致理解哪种方法更适用于提取哪种类型的MWE。可以说,没有通用的MWE提取标准,统计方法通常应用于现有的分类。

搭配一词常用于描述统计方法的论文中,可以被视为MWE的同义词,尽管Baldwin和Kim(2010)指出搭配是统计上具有习语性的MWE。实际上,我们倾向于观察到,用于提取某种特定类型MWE的统计方法在设计上并无限制。因此,通过合适的度量,任何MWE都可能看起来具有统计显著性。区分MWE与搭配的另一种方法是,某些搭配缺乏非组合性——它们是组合性的,其含义容易从构成它们的词位中提取出来。例如,“Many thanks!”是一种统计上显著的恰当致谢方式,但其含义从组成它的单词中就能明显看出。这种(非)组合性无法从词频中统计推断出来。

在一些文献中,MWE与多词单位(MWUs)同义,指“超越单个词项的词汇项”(Shin和Chon, 2019),以及带空格的词,即“跨越词边界(或空格)的异质解释”(Sag等人, 2002)。在本文中,我们有意识地对MWE、搭配、MWU和带空格的词不做特别区分,认为它们都是同一种现象——习语性——的表现形式。

专家分类。Baldwin和Kim(2010)提出了一种分类法,首先将MWE分为两大类(见图1):制度化短语是真正的搭配(统计上常见的短语,如“Many thanks!”),而词汇化短语则表现出一定程度的习语性,并以不同特征为标记(例如,可分解/不可分解)。我们认为,尽管这种分类方法有实例支持,但还不能称为数据驱动;相反,它是对复杂现象的专家观点。此外,所得到的层次结构的底层(VNIC、复合名词、VPC、LVC)基于英语搭配的词性分析,因此将习语性绑定到一个特定的语言特征上。然而,在同一章的表格12.2中,Baldwin和Kim(2010)从另一个角度处理了MWE分类:他们列举了MWE的属性,并用这些属性标注了几个例子,获得了特征分布矩阵,从而推断出“MWE性”的概率,见图2。我们认为,这种方法可以称为数据驱动,因为类别是从标注中推断出来的。但例子很少,并且是特意选择出来以展示几个属于预先设计类别的案例。

图1:Baldwin和Kim(2010)对MWE的分类。VNIC-动名习语组合;VPC-动助词结构;LVC-轻动词结构。
图2:Baldwin和Kim(2010)从习语性角度对MWE的分类。

- • 名词性MWE
  - – 多词命名实体
  - – 名词+名词复合词
  - – 其他名词性MWE
- • 动词性MWE
  - – 短语动词
  - – 轻动词结构
  - – VP习语
  - – 其他动词性MWE
- • 介词性MWE
- • 形容词性MWE
- • 其他类别MWE
- • 谚语

类似于图1的分类,该项目强调短语中心词的词性属性,并将集合划分为不同的子组。我们倾向于认为这种方法具有组织性:在大型项目中分工很重要。其中一些可能的不足之处在于,它必须将非标准例子归入“其他”类别,并且结果层次结构中的元素在理论层面上并不属于同一层级。例如,从理论语言学的角度来看,命名实体由专有名词(如果不考虑照应关系)代表,而所有普通名词则相反——同时,名词+名词复合词是普通名词的一个子类。

另一种导致放弃所有分类的方法见于Schneider等人(2014)。作者旨在为DiMSUM(同上)标注语料库,这是一项检测最小语义单位及其意义的SemEval任务。他们收集了一组英语习语类别,总计15个,如文章所述。除了Baldwin和Kim(2010)提到的一些类别外,还包括命名实体、复合词(“motion picture”)、支撑动词和短语动词(“make decision”,“cry foul”)、并列短语(“cut and dry”)、寒暄语(“You're welcome!”)、谚语(“To each his own”)等。该项目的标注者只标记他们认为是MWE的内容。有趣的是,作者没有发现任何特定的词性模式可以与搭配类型相关联:“通过粗粒度词性标签序列对MWE进行分类,我们只发现有8种模式出现超过100次”(Schneider等人, 2014)。

专家标准。另一种从理论上构建分类的方法,是列举各种语言学标准,据此可将某物定义为MWE,并对展示这些标准的金标准例子进行术语标注。Vinogradov(1977)的方法就是这样,他借鉴了瑞士学者Charles Bally的分类,并区分出两种类型的MWE——习语性较低和较高的一种:

- • 组合(如“conclude an agreement”)
- • 融合
  - – 包含古旧词汇 – “to eke out”
  - – 包含古旧语法形式 – “hither and thither”
  - – 经过变化以至于不再像组成它们的词位 – “lo and behold”(“lo”来自“look”)
  - – 完全丧失初始含义 – “caught red-handed”(最初指抓住非法狩猎动物的人)

在Vinogradov(1977)的分类之外,他还放置了术语组和命名实体。

Manning和Schutze(1999)虽然没有构建分类,但描述了表征搭配的三个标准:非组合性(上文讨论过)、不可替代性(词位不能被同义词替换)、不可修饰性(词位不能在语法上变化)。同样,还有几种类型被单独提及:轻动词、动助词结构、专有名词、术语表达。

Cowie和Howarth(1996)提出以下标准:

- • 对说话者的熟悉程度
- • 作为现成单元存储在记忆中的能力
- • 有限且任意的可变性
- • 语义不透明

Tarasevitch(1991)使用了她自己的列表:

- • 使用的稳定性
- • 结构上的分离性
- • 意义的复杂性
- • 不建立在自由词组的生成模式上

Mel’čuk(1960)认为习语性会影响短语或其部分的翻译。在习语性更强、更稳定的表达中,很难为每个词位找到完全对应的翻译,整个短语更容易用一个词来翻译。Baldwin和Kim(2010)也提到了语用习语性(与特定情境相关联)、谚语性(描述社会感兴趣的情境)、韵律,但我们将这些标准排除在研究范围之外,因为它们需要超出书面文本的范围。

本段可能遗漏了一些标准,但据我们所知,其他著作中大约相同标准会重复出现。

哪种方法可以称为数据驱动?Amin等人(2021)在论文标题中称其方法为数据驱动,他们设计了度量标准,帮助从文本中的n-gram推断上述部分标准。类似的方案也见于Rossyaykin和Loukachevitch(2019),他们使用一组统计、上下文和分布度量来从语料库中推断MWE。另一种仅基于关联度量的聚类方法见于Tutubalina(2015)。Nissim和Zaninello(2013)引入了变化模式作为关联度量的替代方案。Wahl和Gries(2018)称其方法为“自下而上”,引入了MERGE算法,同样是作为关联度量的替代方案(该项目由Gries(2022)进一步发展)。总结来说,数据驱动项目将MWE表示为多维空间中的向量,并进行统计分析。通常这些向量在图表中可视化,以观察是否存在吸引更多MWE的聚类。

## 3. 实验设置

我们方法背后的直觉是,关于习语性现象的理论语言学专业知识使其看起来像一个统一的整体,可以分割成多个扇区——即类别,或MWE的类型。然而

相似文章

IdioLink:在习语与字面表达间检索超越字词的意义

arXiv cs.CL

介绍了IdioLink,一个包含10,700篇文档和2,140个查询的检索基准,覆盖107个习语,测试模型是否能够将习语表达与概念上等价的字面或释义含义联系起来。评估显示,当前的嵌入模型在此任务上表现不佳,突显了习语感知语义检索方面的空白。

AI生成文本检测中语言特征的系统性分析:跨领域与跨模型研究

arXiv cs.CL

一项大规模实证研究对284个语言特征在27个大语言模型和10个文本领域中的表现进行了分析,以评估哪些特征能够可靠地检测AI生成文本。研究发现,词汇丰富度指标是跨领域和跨模型最稳健的信号,而许多其他已提出的指标则高度依赖具体上下文。