Prague Dependency Treebank -- 整合版 2.0:丰富复杂标注方案

arXiv cs.CL 论文

摘要

我们介绍了Prague Dependency Treebank的第二个整合版本,这是一个400万词的人工多语言标注资源,涵盖形态、句法、语义、共指和话语,以及兼容的词典。

arXiv:2606.24324v1 Announce Type: new Abstract: Prague Dependency Treebank框架的独特之处在于它试图系统地包含和连接不同层次的语言,包括具有多种句间现象的意义表示,尤其是共指和话语关系。我们介绍其第二个整合版本(PDT-C 2.0),这个版本结束了近30年的持续开发项目,将资源打造为一个统一且连贯标注、体裁多样化、近400万词元的捷克语语言资源,并配有完全兼容的词典。除了持续的语言学研究外,这个具有丰富语言标注的语料库还广泛用于传统和新型NLP工具开发的国际比较,以及转换为其他形式体系。该语料库和训练好的解析器在CC BY-NC-SA许可下提供。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:46

# 布拉格依存树库 - 整合版 2.0:丰富复杂标注方案
来源:https://arxiv.org/html/2606.24324
###### 摘要

布拉格依存树库框架的独特之处在于,它试图系统性地包含并连接语言的不同层次,包括一种包含多种跨句现象(特别是共指和话语关系)的语义表示。我们在此介绍其第二个整合版本(PDT-C 2.0),这标志着该资源近三十年持续发展的成果——现已成为一个标注统一且连贯、体裁多样、涵盖近400万词符的捷克语语言资源,并附带了完全兼容的词典。除了持续的语言学研究外,这个丰富语言学标注的语料库还被广泛用于传统及新型NLP工具发展的国际比较,以及向其他形式体系的转换。该语料库及训练好的解析器在CC BY-NC-SA许可下开放获取。

关键词:树库,形态学,句法,语义学,共指,话语,标注器,解析器,词库

\NAT@set@cites

布拉格依存树库 - 整合版 2.0:丰富复杂标注方案

Marie Mikulová, Jiří Mírovský, Milan Straka, Pavlína Synková, Jan Štěpánek, Barbora Štěpánková, Jan Hajič
查尔斯大学,数学与物理学院,形式与计算语言学研究所
Malostranské náměstí 25, 118 00 布拉格 1,捷克共和国
{mikulova,mirovsky,straka,synkova,stepanek,stepenakova,hajic}@ufal.mff.cuni.cz
摘要内容

## 1. 引言

我们介绍布拉格依存树库 - 整合版 2.0(PDT-C 2.0;Hajič 等,2024a (https://arxiv.org/html/2606.24324#biba.bib1)),这是现有原始 PDT 捷克语语料库的第二个整合版本,以单一包形式发布以便于数据处理。与之前的 1.0 版本相比,现在所有数据均已完成人工标注。附带的资源包括形态词典 MorfFlex(Hajič 等,2024b (https://arxiv.org/html/2606.24324#biba.bib2))和配价词典 PDT-Vallex(Urešová 等,2024 (https://arxiv.org/html/2606.24324#biba.bib3))。这两个外部资源与 PDT-C 标注完全兼容。在本文中,我们均衡地总结了这一大型语言资源的各个方面:数据体裁、多层标注方案、各种丰富的语言学标注、链接的词典资源及其与标注的关系。所介绍的语言资源在以下方面独具特色:

- •**多层架构**:语言的复杂结构通过相互链接的层级化标注层来捕捉,如图1 (https://arxiv.org/html/2606.24324#S1.F1) 所示。这使得研究人员能够独立处理特定的语言学方面,从而进行更细致、精确的分析。同时,各层的互联性使得研究意义如何与文本联系起来成为可能。
- •**丰富的语言学标注**:涵盖从形态句法到语义,包括**跨句现象**(特别是共指、话语关系)。参见表2 (https://arxiv.org/html/2606.24324#S4.T2) 的概述。
- •**体裁多样化的数据集**:包括书面语、翻译、口语和用户生成文本。参见表1 (https://arxiv.org/html/2606.24324#S2.T1) 的数据集概述。
- •**大量数据**:超过 400 万词符;参见表1 (https://arxiv.org/html/2606.24324#S2.T1) 的数据量概述。
- •所有标注均**手工完成**。

参见图注
图1:PDT-C 树库中的多层标注方案,以文本为例:
Jistě, všichni citujete hlavně sebe. S tím ale stěží vystačíte.
当然,你们主要引用自己。但光靠这个你很难应付。
‘Of course, you all mainly cite yourself. But that’s hardly enough.’

本文组织如下:第2节 (https://arxiv.org/html/2606.24324#S2) 描述了 PDT 多层标注方案;第3节 (https://arxiv.org/html/2606.24324#S3) 介绍了数据的体裁多样性;第4节 (https://arxiv.org/html/2606.24324#S4) 强调了大量的人工标注;第5节 (https://arxiv.org/html/2606.24324#S5) 概述了丰富的语言学标注;第6节 (https://arxiv.org/html/2606.24324#S6) 提及了外部完全兼容的语言资源;第7节 (https://arxiv.org/html/2606.24324#S7) 介绍了树库在NLP领域的应用(解析器开发及向其他框架的转换)。我们在第9节 (https://arxiv.org/html/2606.24324#S9) 进行总结,并描述了未来工作和正在进行的标注工作(第8节 (https://arxiv.org/html/2606.24324#S8))。

### 1.1. 从 1.0 到 PDT-C 2.0

与之前的 1.0 版本(Hajič 等,2020 (https://arxiv.org/html/2606.24324#bib.bib4))相比,现在所有数据均已完成人工标注。新版本体现在以下方面:

- •在**表层句法**层(第5.3节 (https://arxiv.org/html/2606.24324#S5.SS3))的**人工标注**现已涵盖语料库中此前仅由自动工具标注的部分。标注工作的目标还包括整合所有层的标注,包括先前已人工标注的部分。标注者在标注过程中需遵循所有标注层。这导致了对原始标注的许多修改和更正。
- •**话语**关系的人工标注(第5.7节 (https://arxiv.org/html/2606.24324#S5.SS7))现已应用于所有数据集。
- •**共指**的人工标注(第5.6节 (https://arxiv.org/html/2606.24324#S5.SS6))现已应用于所有数据集。

## 2. 多层架构

PDT 标注方案基于成熟的语言描述理论——功能生成描述(Sgall 等,1986 (https://arxiv.org/html/2606.24324#bib.bib40)),并已反映在项目网站提供的多个标注手册中。222https://ufal.mff.cuni.cz/pdt-c

多层架构(从意义到文本的链接)允许全面描述形态属性、句法功能和表达意义之间的关系,从而有助于提高语言描述的准确性以及标注数据的整体一致性(参见 Hajičová 等,2022 (https://arxiv.org/html/2606.24324#bib.bib11);Mikulová 等,2025 (https://arxiv.org/html/2606.24324#bib.bib23))。多层架构的示意如图1 (https://arxiv.org/html/2606.24324#S1.F1) 所示:每个标注层用一个单独的框表示。层之间的链接用浅色虚线箭头表示。共有三个标注层:

- •**形态**标注(图1 (https://arxiv.org/html/2606.24324#S1.F1) 中的 m-层框):每个词符获得一个词元和一个形态标签(见第5.2节 (https://arxiv.org/html/2606.24324#S5.SS2))。
- •**表层句法**(a-层):一个依存树,捕捉诸如主语、宾语、状语等句法关系(见第5.3节 (https://arxiv.org/html/2606.24324#S5.SS3))。
- •**深层句法**和**其他语义**标注(t-层),捕捉深层句法结构(第5.4节 (https://arxiv.org/html/2606.24324#S5.SS4))、配价(5.5节 (https://arxiv.org/html/2606.24324#S5.SS5))、共指(第5.6节 (https://arxiv.org/html/2606.24324#S5.SS6))、话语(第5.7节 (https://arxiv.org/html/2606.24324#S5.SS7))等。

除了上述三个PDT方案中的标注层,还有一个**原始文本层**(未在图1 (https://arxiv.org/html/2606.24324#S1.F1) 中展示),该层将文本切分为文档和段落,并为每个词符分配唯一标识符。在口语数据中,还有额外的音频信号和语音识别层(第3.3节 (https://arxiv.org/html/2606.24324#S3.SS3))。在口语数据部分,原始文本层实际上也是一个“标注”层,即手工提供的音频信号转录。

**各层链接**。为避免丢失任何原始信息,较低层中的词符(节点)会从最近(直接上级)层显式引用。这些链接使得每个标注单元都可以追溯到原始文本或转录文本及音频(在口语数据中)。

表1:PDT-C 2.0 各数据集数据量(词符数)
## 3. 体裁多样化的数据

PDT-C 2.0 包含四个不同的数据集:书面语文本(第3.1节 (https://arxiv.org/html/2606.24324#S3.SS1))、翻译文本(第3.2节 (https://arxiv.org/html/2606.24324#S3.SS2))、口语文本(第3.3节 (https://arxiv.org/html/2606.24324#S3.SS3))和用户生成文本(第3.4节 (https://arxiv.org/html/2606.24324#S3.SS4))。

这些数据集以三种**格式**统一发布:pml、mrp 和 treex。布拉格标记语言格式(PML,Pajas 和 Štěpánek,2008 (https://arxiv.org/html/2606.24324#bib.bib34))是一种基于XML的与语言无关的格式,专为多层语言学标注定制。Treex 在技术上也是一种 PML 格式,用于 NLP 系统 Treex(所有标注层都在一个文件中;Žabokrtský,2011 (https://arxiv.org/html/2606.24324#bib.bib51))。MRP 是一种基于 JSON 的格式,用于 CoNLL 2019 和 2020 的语义表示解析共享任务(Oepen 等,2019 (https://arxiv.org/html/2606.24324#bib.bib33),2020 (https://arxiv.org/html/2606.24324#bib.bib32));与 PML 和 Treex 格式不同,转换为 MRP 格式(Zeman 和 Hajič,2020 (https://arxiv.org/html/2606.24324#bib.bib49) 中有详细描述)是有损的,因为它只提取了部分标注。

标注的**质量和一致性**通过多种工具进行监控、测量和确保(例如多重标注和自动检查;参见 Mikulová 和 Štěpánek,2010 (https://arxiv.org/html/2606.24324#bib.bib22);Mikulová 等,2022 (https://arxiv.org/html/2606.24324#bib.bib25),2025 (https://arxiv.org/html/2606.24324#bib.bib23))。

### 3.1. 书面语数据

该数据集来自**布拉格依存树库**,这是自20世纪90年代开始开发的第一个PDT语料库(Hajič,1998 (https://arxiv.org/html/2606.24324#bib.bib10))。数据包含来自三个领域的捷克报纸和期刊文本:每日新闻、商业和科学。与其他数据集相比,书面语数据集的标注最为丰富,添加了一些特殊的标注;见表2 (https://arxiv.org/html/2606.24324#S4.T2)。

### 3.2. 翻译数据

翻译文本数据集来自**布拉格捷克-英语依存树库**(PCEDT,最初于2012年发布,Hajič 等,2012 (https://arxiv.org/html/2606.24324#bib.bib6))。PCEDT 是一个(部分)人工标注的捷克-英语平行语料库。英语部分由 Penn Treebank(Marcus 等,1993 (https://arxiv.org/html/2606.24324#bib.bib15))的《华尔街日报》部分构成。捷克语部分用于 PDT-C 整合版,是从英语原文逐句人工(且专业地,经过多次质量控制)翻译而来。

### 3.3. 口语数据

口语文本数据集取自**布拉格口语捷克语依存树库**(最初于2017年发布;Mikulová 等,2017 (https://arxiv.org/html/2606.24324#bib.bib21))。它包含来自 Shoa 基金会视觉历史档案馆的大屠杀幸存者的略带节制的证词,以及两两参与者在一组照片上聊天的对话。

口语数据与其他包含的 PDT 语料库的主要区别在于“口语”部分。除了第2节 (https://arxiv.org/html/2606.24324#S2) 中描述的三个标注层外,该语料库还包含音频信号、由自动语音识别引擎生成的转录以及口语录音的人工转录。过程始于“音频”层,该层包含音频信号。下一层包含由自动语音识别引擎生成的转录。词层包含口语录音的人工转录,形态层包含重构的(即语法校正后的)句子版本(见第5.1节 (https://arxiv.org/html/2606.24324#S5.SS1))。从这一点开始,上层标注是标准的。

### 3.4. 用户生成数据

用户生成文本数据集来自 **PDT-Faust** 语料库,这是一个小型树库,包含由各种用户在 reverso.net (https://arxiv.org/html/2606.24324v1/reverso.net) 翻译网页上输入的短片段(通常包含非标准以及表达性或粗俗内容)。捷克语数据包括对英语源文本的捷克语参考翻译的人工标注。这些文本由三名译者独立翻译,所有三份参考翻译均进行了标注。

## 4. 数据量

数据量见表1 (https://arxiv.org/html/2606.24324#S2.T1)。整合后的树库总共包含近 400 万词符,带有手工形态标注(第5.2节 (https://arxiv.org/html/2606.24324#S5.SS2));350 万词符带有手工表层句法标注(第5.3节 (https://arxiv.org/html/2606.24324#S5.SS3));270 万词符带有手工深层句法及其他语义标注(第5.4节 (https://arxiv.org/html/2606.24324#S5.SS4))。书面语数据中词符数量的差异是由于某些标注仅适用于形态和/或表层句法层。

数据集/标注类型 | 书面语 | 翻译 | 口语 | 用户生成
--- | --- | --- | --- | ---
音频 | 不适用 | 不适用 | 提供 | 不适用
ASR 转录 | 不适用 | 不适用 | 提供 | 不适用
转录 | 不适用 | 不适用 | 手工 | 不适用
翻译 | 不适用 | 手工 | 不适用 | 手工
**形态层** | | | | 
语音重建 | 不适用 | 不适用 | 手工 | 不适用
词元化 | 手工 | 手工 | 手工 | 手工
标注 | 手工 | 手工 | 手工 | 手工
**表层句法层** | | | | 
依存结构 | 手工 | 手工 | 手工 | 手工
表层句法功能 | 手工 | 手工 | 手工 | 手工
分句切分 | 手工 | 未标注 | 未标注 | 未标注
**深层句法层** | | | | 
深层句法结构 | 手工 | 手工 | 手工 | 手工
深层句法功能 | 手工 | 手工 | 手工 | 手工
配价 | 手工 | 手工 | 手工 | 手工
共指 | 手工 | 手工 | 手工 | 手工
话语 | 手工 | 手工 | 手工 | 手工
语法特征 | 手工 | 未标注 | 未标注 | 未标注
话题-焦点切分 | 手工 | 未标注 | 未标注 | 未标注
桥接关系 | 手工 | 未标注 | 未标注 | 未标注
体裁说明 | 手工 | 未标注 | 未标注 | 未标注
引用 | 手工 | 未标注 | 未标注 | 未标注
多词表达 | 手工 | 未标注 | 未标注 | 未标注
表2:各种标注类型及其在数据集中的实现概览(PDT-C 2.0 新增的人工标注以粗体表示)
## 5. 丰富的语言学标注

长期进行的布拉格依存树库项目在其系统性地覆盖并连接不同语言描述层面(包括丰富的语义标注)方面是独一无二的。表2 (https://arxiv.org/html/2606.24324#S4.T2) 提供了每个数据集(见第3节 (https://arxiv.org/html/2606.24324#S3))中三个标注层(见第2节 (https://arxiv.org/html/2606.24324#S2))上不同类型标注的概览,以及相关信息。

相似文章

MorfFlex:处理丰富的形态学

arXiv cs.CL

本文介绍了MorfFlex,一种适用于具有丰富屈折和派生形态的语言的形态词典架构,以捷克语的MorfFlex CZ为例,该词典包含超过1亿个词形,支持标注一致性和NLP工具。

CAIT: 儿童-成人互动句法分析工具包

arXiv cs.CL

CAIT 是一个开源的句法分析工具包,用于分析儿童-成人互动,包含一个依存句法分析器、词性标注器和构式标注器,这些模型基于 UD-English-CHILDES 树库训练,性能优于 SpaCy 和 Stanza 等通用英语句法分析器。