认识UD_Czech-PDTC:通用依赖框架下的大型、体裁丰富的树库

arXiv cs.CL 论文

摘要

本文介绍了UD_Czech-PDTC,这是通用依赖框架下捷克语的一个大型、体裁多样的树库,源自Prague Dependency Treebank-Consolidated。文章描述了转换过程以及两种标注方案之间的差异。

arXiv:2606.24337v1 公告类型:新 摘要:自2015年首次发布以来,捷克语一直是通用依赖(Universal Dependencies)的一部分。它也是最具代表性的语言之一,Prague Dependency Treebank的规模比大多数其他UD树库大一个数量级。最近,另外三个来自Prague家族的数据集被添加进来,并且标注被彻底重新审视,形成了“Prague Dependency Treebank-Consolidated”(PDT-C)。与原始PDT相比,PDT-C的规模扩大了一倍以上,而且在体裁和领域方面也更加多样化。在本文中,我们描述了将这一新资源转换为通用依赖的过程。虽然这两种标注方案乍一看相对相似,但在依存结构的拓扑结构以及词性和关系类型清单的粒度上存在许多细微差异。我们通过示例展示了其中一些差异,讨论了不同的动机,以及在转换过程中克服差异的方法。我们认为,尽管PDT的“通用性”较低,且更紧密地绑定于一种语言,但其多层标注非常丰富,提供了基本UD树所需的所有信息,甚至更多。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:46

# 认识 UD_Czech-PDTC:一个大规模且语类丰富的通用依存关系树库
来源:https://arxiv.org/abs/2606.24337
查看 PDF (https://arxiv.org/pdf/2606.24337)

> 摘要:捷克语自 2015 年首次发布起就已成为 Universal Dependencies (通用依存关系) 的一部分。它也是最具代表性的语言之一,其 Prague Dependency Treebank (布拉格依存树库) 比大多数其他 UD 树库大一个数量级。最近,来自布拉格家族的另外三个数据集被添加进来,并且注解得到了彻底的重新审视,形成了 "Prague Dependency Treebank-Consolidated" (PDT-C)。与原始的 PDT 相比,PDT-C 的规模是其两倍以上,并且在语类和领域方面也丰富得多。在本文中,我们描述了该新资源向 Universal Dependencies 的转换过程。虽然这两种注解方案乍看之下相对相似,但在依存结构的拓扑结构以及词性和关系类型列表的粒度上存在许多细微差异。我们通过示例展示了一组此类差异,讨论了不同的动机,以及转换过程中克服这些差异的方法。我们认为,尽管 PDT 的“通用性”较弱,与单一语言的绑定更紧密,但其多层注解非常丰富,不仅提供了构建基本 UD 树所需的所有信息,还提供了更多。

## 提交历史

来自:Milan Straka [view email (https://arxiv.org/show-email/897090c7/2606.24337)] **\[v1\]** 2026 年 6 月 23 日,星期二 09:22:42 UTC (988 KB)

相似文章

CAIT: 儿童-成人互动句法分析工具包

arXiv cs.CL

CAIT 是一个开源的句法分析工具包,用于分析儿童-成人互动,包含一个依存句法分析器、词性标注器和构式标注器,这些模型基于 UD-English-CHILDES 树库训练,性能优于 SpaCy 和 Stanza 等通用英语句法分析器。