认识UD_Czech-PDTC:通用依赖框架下的大型、体裁丰富的树库
摘要
本文介绍了UD_Czech-PDTC,这是通用依赖框架下捷克语的一个大型、体裁多样的树库,源自Prague Dependency Treebank-Consolidated。文章描述了转换过程以及两种标注方案之间的差异。
arXiv:2606.24337v1 公告类型:新
摘要:自2015年首次发布以来,捷克语一直是通用依赖(Universal Dependencies)的一部分。它也是最具代表性的语言之一,Prague Dependency Treebank的规模比大多数其他UD树库大一个数量级。最近,另外三个来自Prague家族的数据集被添加进来,并且标注被彻底重新审视,形成了“Prague Dependency Treebank-Consolidated”(PDT-C)。与原始PDT相比,PDT-C的规模扩大了一倍以上,而且在体裁和领域方面也更加多样化。在本文中,我们描述了将这一新资源转换为通用依赖的过程。虽然这两种标注方案乍一看相对相似,但在依存结构的拓扑结构以及词性和关系类型清单的粒度上存在许多细微差异。我们通过示例展示了其中一些差异,讨论了不同的动机,以及在转换过程中克服差异的方法。我们认为,尽管PDT的“通用性”较低,且更紧密地绑定于一种语言,但其多层标注非常丰富,提供了基本UD树所需的所有信息,甚至更多。
查看缓存全文
缓存时间: 2026/06/24 07:46
# 认识 UD_Czech-PDTC:一个大规模且语类丰富的通用依存关系树库 来源:https://arxiv.org/abs/2606.24337 查看 PDF (https://arxiv.org/pdf/2606.24337) > 摘要:捷克语自 2015 年首次发布起就已成为 Universal Dependencies (通用依存关系) 的一部分。它也是最具代表性的语言之一,其 Prague Dependency Treebank (布拉格依存树库) 比大多数其他 UD 树库大一个数量级。最近,来自布拉格家族的另外三个数据集被添加进来,并且注解得到了彻底的重新审视,形成了 "Prague Dependency Treebank-Consolidated" (PDT-C)。与原始的 PDT 相比,PDT-C 的规模是其两倍以上,并且在语类和领域方面也丰富得多。在本文中,我们描述了该新资源向 Universal Dependencies 的转换过程。虽然这两种注解方案乍看之下相对相似,但在依存结构的拓扑结构以及词性和关系类型列表的粒度上存在许多细微差异。我们通过示例展示了一组此类差异,讨论了不同的动机,以及转换过程中克服这些差异的方法。我们认为,尽管 PDT 的“通用性”较弱,与单一语言的绑定更紧密,但其多层注解非常丰富,不仅提供了构建基本 UD 树所需的所有信息,还提供了更多。 ## 提交历史 来自:Milan Straka [view email (https://arxiv.org/show-email/897090c7/2606.24337)] **\[v1\]** 2026 年 6 月 23 日,星期二 09:22:42 UTC (988 KB)
相似文章
Prague Dependency Treebank -- 整合版 2.0:丰富复杂标注方案
我们介绍了Prague Dependency Treebank的第二个整合版本,这是一个400万词的人工多语言标注资源,涵盖形态、句法、语义、共指和话语,以及兼容的词典。
AthDGC:一个开放的历时希腊语树库,具有印欧语平行语料
本文介绍了AthDGC,这是首个获得公开许可的依存句法分析希腊语树库,跨越八个历时时期,并使用Stanza、LaBSE和多语言BERT等NLP工具与四种古代印欧语进行了诗句级别的交叉对齐。
一种可复现的、面向Katharevousa希腊语议会文本的Universal Dependencies风格流水线
本文介绍了一种可复现的流水线,用于构建面向Katharevousa希腊语议会文本的Universal Dependencies风格解析资源,包括OCR重建、LLM辅助标注以及多个解析器的评估。最佳模型(XLM-R)达到了0.8893的UPOS准确率和0.5162的LAS,显著优于现成的基线模型。
UniDDT: 通过解耦扩散变换器统一多模态理解与生成
UniDDT提出了一种解耦扩散变换器框架,通过利用Noisy ViT编码器和LLM进行语义编码,统一了多模态理解与生成,在两个任务上均取得了强劲性能。
CAIT: 儿童-成人互动句法分析工具包
CAIT 是一个开源的句法分析工具包,用于分析儿童-成人互动,包含一个依存句法分析器、词性标注器和构式标注器,这些模型基于 UD-English-CHILDES 树库训练,性能优于 SpaCy 和 Stanza 等通用英语句法分析器。