介绍Hlava Cor和Hlava AD语料库:共指与篇章关系中的人工标注变异性

arXiv cs.CL 论文

摘要

本文介绍了两个新的捷克语语料库Hlava Cor和Hlava AD,旨在研究共指与篇章关系中人工标注的变异性。这些语料库包含多重标注和标注者解释,实现了60-65%的标注者间一致性,并揭示了理解上的系统性差异。

arXiv:2606.25383v1 Announce Type: new 摘要:正如先前关于篇章现象中标注者分歧的研究所示,对文本连贯性的理解因人而异。为了探索这一现象,我们创建了两个包含捷克文本多重标注的语料库,并附带了标注者对其选择的解释。第一个语料库包含1,024个上下文,由三位标注者并行标注。它捕捉了不同文本类型和语法语义类别(包括代词、完整名词短语和回指副词)中共指识别上的差异。第二个语料库包含512个上下文,由五位标注者并行标注,侧重于识别定语性和非定语句式中的篇章关系。两个语料库都达到了约60-65%的可比较的标注者间一致性。对于共指标注,在自动共指消解模型存在分歧的情况下,一致性往往较低,这表明当模型存在分歧时,这些例子对于人类标注者来说往往更难解读或更模糊。标注者的评论(针对共指和篇章关系)进一步揭示了理解上的差异、对文本理解的不同置信水平以及个人的阅读策略。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:11

# 介绍 Hlava Cor 与 Hlava AD 语料库:共指与话语关系中的人类标注变异

来源:https://arxiv.org/html/2606.25383

###### 摘要

正如以往关于话语现象中标注者分歧的研究所示,对文本连贯性的理解因人而异,差异显著。为探究这一现象,我们构建了两个包含捷克语文本多重标注的语料库,并附有标注者对其选择所作的解释。第一个语料库包含由三位标注者并行标注的1,024个语境片段,捕捉了不同文本类型及语法语义范畴(包括代词、完整名词短语和回指副词)中共指识别的差异。第二个语料库包含由五位标注者并行标注的512个语境片段,专注于识别归属性与非归属性构式中的话语关系。两个语料库的标注者间一致性大致相当,约为60–65%。在共指标注中,当自动共指消解模型产生分歧时,标注者间一致性往往更低,这表明模型意见不一致的例句对人类标注者而言往往更难以解释或更具歧义。标注者的评论(无论是针对共指还是话语关系)进一步揭示了理解上的差异、文本理解自信程度的不同以及个体阅读策略的多样性。

关键词:连贯性理解,多重标注,带注释标注

\NAT@set@cites

# 介绍 Hlava Cor 与 Hlava AD 语料库:共指与话语关系中的人类标注变异

Anna Nedoluzhko, Šárka Zikánová, Jiří Mírovský, Milan Straka 和 Eva Hajičová  
查理大学数学与物理学院形式与应用语言学研究所  
捷克共和国,布拉格  
\{nedoluzhko, zikanova, mirovsky, straka, hajicova\}@ufal.mff.cuni.cz  

(摘要内容)

## 1. 引言

在我们长期从事话语关系、共指和信息结构语料库开发的过程中,我们观察到某些语言现象产生的标注者间一致性低于其他现象。这一观察与越来越多关注不同视角的标注评估研究(Basile et al., 2021 (https://arxiv.org/html/2606.25383#bib.bib1))以及人类标注变异(HLV, Plank, 2022 (https://arxiv.org/html/2606.25383#bib.bib12))研究相一致,后者认为 NLP 中的分歧往往反映了语言固有的复杂性,而非仅仅是噪声。可以识别出若干可能促成这种变异的因素,范围从同语义信号的多义性到词序模式(参见,例如,Zikánová, 2024 (https://arxiv.org/html/2606.25383#bib.bib27))。此外,标注者相关因素,例如对文本片段相对重要性的主观感知,也起着重要作用。这种解释多样性在大规模项目中得到了充分记录;例如,Poesio 等人(2020 (https://arxiv.org/html/2606.25383#bib.bib13))和 Recasens 等人(2010 (https://arxiv.org/html/2606.25383#bib.bib18))一直观察到,文本意义的歧义自然会降低共指任务中的一致性。

在本文中,我们介绍两个为研究人类标注变异而构建的语料库。**Hlava Cor**(共指中的人类标注变异,Nedoluzhko 等人,2026 (https://arxiv.org/html/2606.25383#biba.bib3))包含共指标注,重点关注与泛指性、主观性和欠指定相关的人类标注变异。**Hlava AD**(归因与话语中的人类标注变异,Šárka Zikánová 等人,2024 (https://arxiv.org/html/2606.25383#biba.bib5))包含归属性与非归属性构式中话语关系的标注。

在构建这些语料库时,我们基于以往的标注经验与分析,考虑了关于标注分歧可能成因的各种假设。对于共指语料库,我们特别区分了泛指表达与特指表达,以及不同的语法语义范畴,包括代词、完整名词短语和回指副词。我们进一步假设,共指消解模型可能在一定程度上预测欠指定情况,即模型出现分歧之处,人类标注者也往往发现共指关系的解释存在问题(参见第4.3节 (https://arxiv.org/html/2606.25383#S4.SS3) 和 4.4 节 (https://arxiv.org/html/2606.25383#S4.SS4))。

对于话语关系,我们假设在包含较大直接或间接引语片段的文本中,接受者可能更难识别后续哪些句子仍与直接/间接引语相关(参见第5节 (https://arxiv.org/html/2606.25383#S5))。

我们认为,多重标注,特别是伴随每条标注的详细评论,为探究人类标注变异的原因和细微差别提供了丰富的材料,加深了我们对人们如何以不同方式解读文本的理解。我们将我们的语料库理解为提供多种类型带注释结构的数据集,从而为未来针对特殊案例的心理语言实验奠定基础。此外,这些语料库可作为评估先前单一标注语料库可靠性的参考数据集。

## 2. 相关工作

语言意义的解释从来都不是完全固定或统一的;它受到语境、视角以及自然语言固有歧义性的塑造。这种根本性的不确定性影响着语言分析的各个层面,包括话语和共指标注,在这些标注中,即使有详细的标注指南,人类判断也常常出现分歧。话语标注领域的研究人员以不同方式应对这一挑战。例如,Marchal 等人(2022 (https://arxiv.org/html/2606.25383#bib.bib8))讨论了在多位标注者参与下评估标注质量的方法。基于 Jiang 等人(2023 (https://arxiv.org/html/2606.25383#bib.bib6))提出的“生态有效”解释,近期 Weber-Genzel 等人(2024 (https://arxiv.org/html/2606.25383#bib.bib23))的工作采用了两轮标注流程,参与者通过自然语言解释来证明其标签选择的合理性。在这些研究中,标注者将从句之间的关系分类为蕴涵、矛盾或中性,并提供评论,使研究人员能够区分解释性变异与标注错误。其他研究则强调明确捕捉解释多元性的重要性(Plank, 2022 (https://arxiv.org/html/2606.25383#bib.bib12); Basile et al., 2021 (https://arxiv.org/html/2606.25383#bib.bib1); Crible et al., 2019 (https://arxiv.org/html/2606.25383#bib.bib3))。

新的语料库不断发布,用于捕捉对话语关系的多重理解,例如基于 RST 方法(Peng et al., 2022 (https://arxiv.org/html/2606.25383#bib.bib11); Polakova et al., 2024 (https://arxiv.org/html/2606.25383#bib.bib15); Hewett and Stede, 2025 (https://arxiv.org/html/2606.25383#bib.bib5)),或基于 PDTB 方法的隐性话语关系(Scholman et al., 2022 (https://arxiv.org/html/2606.25383#bib.bib20); Yung et al., 2024 (https://arxiv.org/html/2606.25383#bib.bib25))。这些数据集均未包含标注者对其选择的评论。

关于口语和书面语数据的比较研究进一步表明,模态对解释多样性有所贡献:口语倾向于涉及更多隐性和多功能的关系(Rehbein et al., 2016 (https://arxiv.org/html/2606.25383#bib.bib19); Cuenca, 2017 (https://arxiv.org/html/2606.25383#bib.bib4); Crible et al., 2019 (https://arxiv.org/html/2606.25383#bib.bib3)),尽管其标注一致性不一定低于书面文本(Zufferey and Crible, 2015 (https://arxiv.org/html/2606.25383#bib.bib29))。

文本意义的歧义自然会降低标注者间一致性(IAA),这在大型共指标注项目中已得到持续观察(Weischedel et al., 2011 (https://arxiv.org/html/2606.25383#bib.bib24); Zeldes, 2017 (https://arxiv.org/html/2606.25383#bib.bib26); Recasens and Martí, 2010 (https://arxiv.org/html/2606.25383#bib.bib18); Poesio, 2020 (https://arxiv.org/html/2606.25383#bib.bib13))。虽然偶尔也有对标注分歧的分析(Recasens et al., 2011 (https://arxiv.org/html/2606.25383#bib.bib17); Pradhan et al., 2012 (https://arxiv.org/html/2606.25383#bib.bib16)),但这类研究通常局限于规模较小、特定任务的数据子集(参见 Levine and Zeldes, 2025 (https://arxiv.org/html/2606.25383#bib.bib7))。少数语料库明确编码了歧义或近同指情形(Uryupina et al., 2020 (https://arxiv.org/html/2606.25383#bib.bib22); Bourgonje and Stede, 2020 (https://arxiv.org/html/2606.25383#bib.bib2); Ogrodniczuk et al., 2013 (https://arxiv.org/html/2606.25383#bib.bib10)),但这些情况在统计上仍然稀少,人类解释中的大量自然变异尚未被探索。

Poesio 等人(2019 (https://arxiv.org/html/2606.25383#bib.bib14))呈现了一项关于一个通过目的性游戏众包收集的英语文档回指信息语料库中分歧的初步分析。该语料库包含约 10.8 万个可标注项的多重并发标注,每个可标注项平均有 20 个判断(12 个标注和 8 个验证)。然而,专家对数据样本的分析显示,真正的歧义仅出现在约 9% 的可标注项中,其余标注者分歧应归因于标注者错误以及编码方案和标注界面的各种限制。

在我们的分析中,我们使用 Prague Dependency Treebank - Consolidated 2.0(PDT-C 2.0;Hajič 等人,2024 (https://arxiv.org/html/2606.25383#biba.bib1))作为主要数据源,从中提取数据并进行多重标注。

具体来说,我们使用其子语料库:书面模式下的 Prague Dependency Treebank (PDT) 和口语模式下的 Prague Dependency Treebank of Spoken Czech (PDTSC)。PDT 代表来自 1990 年代捷克报纸的文本,而 PDTSC 包含采访者与犹太人大屠杀幸存者或共产主义当代见证者之间的对话转录稿。PDT-C 2.0 语料库包含共指和话语关系的人工标注,以及从形态层到幕语法层(tectogrammatics)的多个语言层面。PDT-C 2.0 中的标注遵循单一正确决策原则,约 10% 的数据并行标注以评估标注者间一致性(IAA)。该集合包含口语和书面子语料库,使得能够跨模态进行话语现象的比较分析。

## 3. Hlava Cor 与 Hlava AD:总体设置

为研究人类标注变异,我们主要从 PDT-C 2.0 的不同部分(详见第4.3节 (https://arxiv.org/html/2606.25383#S4.SS3) 和第5节 (https://arxiv.org/html/2606.25383#S5))提取文本,并构建了 Hlava Cor 和 Hlava AD。标注数据的总体统计见表1 (https://arxiv.org/html/2606.25383#S3.T1)。Hlava Cor 包含 1,024 个由三位标注者标注的案例,而 Hlava AD 包含 512 个由五位标注者标注的案例。¹¹¹两个语料库规模及参与标注者人数的差异并非源于特定的理论或方法要求,而是反映了它们开发的先后阶段以及项目各时期资源可用性的不同。

表1:Hlava Cor 和 Hlava AD 的总体统计

两个语料库均由包含相关语言现象的短捷克语文本片段组成。每个文本片段由若干位标注者进行多重标注。标注是在 Excel 电子表格中呈现的线性文本上进行的。

标注团队由母语为捷克语的人士组成,主要是语言学背景基本的语言学专业学生(年龄 18–30 岁),但未接受过特定理论框架的正式培训。这种缺乏事先接触是有意为之,以确保文本理解不受理论预设的影响。虽然一个由五位标注者组成的核心小组参与了 Hlava AD 的标注,但 Hlava Cor 语料库由分两组(每组三人)的六位标注者进行标注。这个更大的组包括了参与 Hlava AD 任务的同五位参与者,外加一位额外标注者。

标注过程不仅旨在捕捉最终的标注决策,还旨在引出标注者的解释性思考。因此,所有标注都必须包含标注者解释其选择的评论,这些评论对我们的调查至关重要。

## 4. Hlava Cor:共指中的人类语言变异

Hlava Cor 的标注任务定义为识别共指,即指向同一语言外语境实体、概念或情况的指代。

### 4.1. Hlava Cor:标注过程

指示标注者阅读列“句子”中带高亮标记的表达式以及左侧上下文(列“相邻上下文”和“远处上下文”,见表2 (https://arxiv.org/html/2606.25383#S4.T2)²²²在示例中,为节省空间未显示“远处上下文”列。),并在前面的上下文中找到可能的前述语(如果存在)。没有预先标注任何可能的前述语。³³³在表2 (https://arxiv.org/html/2606.25383#S4.T2)中,两个前述语以粗体显示,因为该表展示的是已完成的标注。粗体仅用于使本文示例更易读;标注者在标注过程中未看到这些高亮。每条标注输出包含:(i) 如果前述语出现在前面上下文中,则为其表达式;(ii) 一个表示理解所需上下文程度的数值(0 = 不需要远处上下文,1 = 需要远处上下文,2 = 需要更宽的上下文);以及 (iii) 解释标注者推理或不确定性的自由文本评论。

标注指南详细规定了前述语形式和句法范围的具体约定。要求标注者记录文本中出现的完整名词短语,排除介词,除非介词构成命名实体的一部分或位于指代表达内部。应包含从属修饰语,但应排除关系从句。任何偏离这些规则的情况都必须在评论字段中明确说明。其他具体规定涉及对从句或更大文本片段、所有格及其他形容词性表达、并列和不连续前述语的指代处理。当未找到合适的前述语时,标注者输入 NE(“无前述语”),在完全无法决定的情况下记录一个问号。

### 4.2. Hlava Cor:标注示例

一个标注片段的示例如表2 (https://arxiv.org/html/2606.25383#S4.T2)所示。对于“句子”列中的表达式 `vozidlo`(“车辆”),要求标注者识别一个前述语(如果有),并将其记录在 `ANN_ante` 列中。在 `ANN_comment` 列中,要求标注者证明其决定的合理性或提供任何附加说明。

此示例展示了三位标注者中的两位得出不同结论的情况。标注者1(ANN1)选择了 `vůz`(“汽车”)作为前述语。

相似文章

话语角色标签作为语言模型上下文使用的呈现时间变量

arXiv cs.CL

本文研究了在 RAG 系统中用于包裹上下文的话语角色标签(例如"Reference:"、"Instruction:"、"Example:")如何显著影响语言模型采纳误导性信息的程度。研究在 GPT-4.5、DeepSeek V3 Pro、Llama-3-8B-Instruct 和 Qwen2.5-7B-Instruct 上观察到了 56 至 84 个百分点的变化幅度。作者认为,包裹标签应被视为呈现阶段的变量,并应在上下文利用基准测试中加以报告和控制。