AthDGC:一个开放的历时希腊语树库,具有印欧语平行语料
摘要
本文介绍了AthDGC,这是首个获得公开许可的依存句法分析希腊语树库,跨越八个历时时期,并使用Stanza、LaBSE和多语言BERT等NLP工具与四种古代印欧语进行了诗句级别的交叉对齐。
arXiv:2606.15510v1 公告类型:新
摘要:AthDGC(“Athens-PROIEL”)是一个开放的端到端工作流和数据集。据我们所知,这是首个获得公开许可的依存句法分析希腊语树库,涵盖八个历时时期,即:古希腊语、古典希腊语、共通希腊语、晚期古代希腊语、拜占庭希腊语、晚期拜占庭希腊语、早期现代希腊语和现代希腊语,采用统一的PROIEL XML 2.0模式,并将新约圣经的诗句级别交叉对齐到拉丁语(武加大译本)、哥特语(乌尔菲拉译本)、古教会斯拉夫语(马里亚努斯译本)和古典亚美尼亚语。AthDGC建立在PROIEL树库家族(Haug and Johndal 2008; Eckhoff et al. 2018)之上,该家族确立了该项目的模式和共通希腊语参考集。标注使用Stanford Stanza的PROIEL训练工作流;句子级对齐使用多语言句子嵌入模型LaBSE;词级对齐通过AwesomeAlign过程使用多语言BERT注意力机制。v0.4版本提供了精选样本和开源工具包;完整的注释语料分区仍在希腊国家HPC上进行v0.5审计。在审计完成后,v0.5发布说明中报告了定量规模、每份文本的诗句计数以及每个时期的标注行计数。概念DOI:10.5281/zenodo.20439182。
查看缓存全文
缓存时间: 2026/06/16 11:49
# AthDGC:一部开放的历时希腊语树库及其印欧语平行语料 来源:https://arxiv.org/abs/2606.15510 作者:Nikolaos Lavidas (https://arxiv.org/search/cs?searchtype=author&query=Lavidas,+N), Kiki Nikiforidou (https://arxiv.org/search/cs?searchtype=author&query=Nikiforidou,+K), Dag Haug (https://arxiv.org/search/cs?searchtype=author&query=Haug,+D), Leonid Kulikov (https://arxiv.org/search/cs?searchtype=author&query=Kulikov,+L), Vassiliki Geka (https://arxiv.org/search/cs?searchtype=author&query=Geka,+V), Vassileios Symeonidis (https://arxiv.org/search/cs?searchtype=author&query=Symeonidis,+V), Theodoros Michalareas (https://arxiv.org/search/cs?searchtype=author&query=Michalareas,+T), Sofia Chionidi (https://arxiv.org/search/cs?searchtype=author&query=Chionidi,+S), Anastasia Tsiropina (https://arxiv.org/search/cs?searchtype=author&query=Tsiropina,+A), Eleni Plakoutsi (https://arxiv.org/search/cs?searchtype=author&query=Plakoutsi,+E), Evangelos Argyropoulos (https://arxiv.org/search/cs?searchtype=author&query=Argyropoulos,+E) 查看 PDF (https://arxiv.org/pdf/2606.15510) > 摘要:AthDGC(“Athens-PROIEL”)是一个开放的端到端工作流及数据集。据我们所知,这是首个在单一 PROIEL XML 2.0 架构下覆盖希腊语八个历时时期(即古风希腊语、古典希腊语、通用希腊语、晚期古代希腊语、拜占庭希腊语、晚期拜占庭希腊语、早期现代希腊语和现代希腊语)的开放许可依存句法分析树库,并实现了《新约》与拉丁语《武加大译本》、哥特语《乌尔菲拉译本》、古教会斯拉夫语《马利亚努斯抄本》和古典亚美尼亚语的诗句级交叉对齐。AthDGC 构建于 PROIEL 树库家族(Haug and Johndal 2008;Eckhoff et al. 2018)之上,该家族为本项目确立了架构和通用希腊语参考集。标注采用 Stanford Stanza 经 PROIEL 训练的工作流;句子级对齐使用多语言句子嵌入模型 LaBSE;词级对齐通过 AwesomeAlign 流程利用多语言 BERT 注意力机制。v0.4 版本提供精选样本及开源工具包;完整标注语料库分区仍在希腊国家级高性能计算系统上进行 v0.5 审计。定量规模、每个文本见证的诗句计数以及每个时期的标注行计数会在审计通过后于 v0.5 发布说明中报告。概念 DOI:https://doi.org/10.5281/zenodo.20439182。 ## 提交历史 来自:Nikolaos Lavidas [查看电子邮件 (https://arxiv.org/show-email/218ff916/2606.15510)] **[v1]** 2026年6月13日 星期六 23:38:39 UTC (120 KB)
相似文章
一种可复现的、面向Katharevousa希腊语议会文本的Universal Dependencies风格流水线
本文介绍了一种可复现的流水线,用于构建面向Katharevousa希腊语议会文本的Universal Dependencies风格解析资源,包括OCR重建、LLM辅助标注以及多个解析器的评估。最佳模型(XLM-R)达到了0.8893的UPOS准确率和0.5162的LAS,显著优于现成的基线模型。
认识UD_Czech-PDTC:通用依赖框架下的大型、体裁丰富的树库
本文介绍了UD_Czech-PDTC,这是通用依赖框架下捷克语的一个大型、体裁多样的树库,源自Prague Dependency Treebank-Consolidated。文章描述了转换过程以及两种标注方案之间的差异。
Prague Dependency Treebank -- 整合版 2.0:丰富复杂标注方案
我们介绍了Prague Dependency Treebank的第二个整合版本,这是一个400万词的人工多语言标注资源,涵盖形态、句法、语义、共指和话语,以及兼容的词典。
句法即罗塞塔石碑:通用依存助力科普特语上下文翻译
乔治城大学研究团队通过将通用依存句法解析与双语注释一起加入上下文提示,显著提升了低资源科普特语到英语的翻译效果,刷新最佳纪录。
DraDDP:一个多模态多方对话话语解析数据集
本文介绍了DraDDP,这是首个公开的英文多模态多方对话话语解析数据集,基于美国电视剧构建,包含495个片段、6,374个话语和9.1小时的视频。基准测试表明,多模态信息有助于改善对话结构和关系类型的解析。