AthDGC:一个开放的历时希腊语树库,具有印欧语平行语料

arXiv cs.CL 论文

摘要

本文介绍了AthDGC,这是首个获得公开许可的依存句法分析希腊语树库,跨越八个历时时期,并使用Stanza、LaBSE和多语言BERT等NLP工具与四种古代印欧语进行了诗句级别的交叉对齐。

arXiv:2606.15510v1 公告类型:新 摘要:AthDGC(“Athens-PROIEL”)是一个开放的端到端工作流和数据集。据我们所知,这是首个获得公开许可的依存句法分析希腊语树库,涵盖八个历时时期,即:古希腊语、古典希腊语、共通希腊语、晚期古代希腊语、拜占庭希腊语、晚期拜占庭希腊语、早期现代希腊语和现代希腊语,采用统一的PROIEL XML 2.0模式,并将新约圣经的诗句级别交叉对齐到拉丁语(武加大译本)、哥特语(乌尔菲拉译本)、古教会斯拉夫语(马里亚努斯译本)和古典亚美尼亚语。AthDGC建立在PROIEL树库家族(Haug and Johndal 2008; Eckhoff et al. 2018)之上,该家族确立了该项目的模式和共通希腊语参考集。标注使用Stanford Stanza的PROIEL训练工作流;句子级对齐使用多语言句子嵌入模型LaBSE;词级对齐通过AwesomeAlign过程使用多语言BERT注意力机制。v0.4版本提供了精选样本和开源工具包;完整的注释语料分区仍在希腊国家HPC上进行v0.5审计。在审计完成后,v0.5发布说明中报告了定量规模、每份文本的诗句计数以及每个时期的标注行计数。概念DOI:10.5281/zenodo.20439182。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:49

# AthDGC:一部开放的历时希腊语树库及其印欧语平行语料
来源:https://arxiv.org/abs/2606.15510
作者:Nikolaos Lavidas (https://arxiv.org/search/cs?searchtype=author&query=Lavidas,+N), Kiki Nikiforidou (https://arxiv.org/search/cs?searchtype=author&query=Nikiforidou,+K), Dag Haug (https://arxiv.org/search/cs?searchtype=author&query=Haug,+D), Leonid Kulikov (https://arxiv.org/search/cs?searchtype=author&query=Kulikov,+L), Vassiliki Geka (https://arxiv.org/search/cs?searchtype=author&query=Geka,+V), Vassileios Symeonidis (https://arxiv.org/search/cs?searchtype=author&query=Symeonidis,+V), Theodoros Michalareas (https://arxiv.org/search/cs?searchtype=author&query=Michalareas,+T), Sofia Chionidi (https://arxiv.org/search/cs?searchtype=author&query=Chionidi,+S), Anastasia Tsiropina (https://arxiv.org/search/cs?searchtype=author&query=Tsiropina,+A), Eleni Plakoutsi (https://arxiv.org/search/cs?searchtype=author&query=Plakoutsi,+E), Evangelos Argyropoulos (https://arxiv.org/search/cs?searchtype=author&query=Argyropoulos,+E)

查看 PDF (https://arxiv.org/pdf/2606.15510)

> 摘要:AthDGC(“Athens-PROIEL”)是一个开放的端到端工作流及数据集。据我们所知,这是首个在单一 PROIEL XML 2.0 架构下覆盖希腊语八个历时时期(即古风希腊语、古典希腊语、通用希腊语、晚期古代希腊语、拜占庭希腊语、晚期拜占庭希腊语、早期现代希腊语和现代希腊语)的开放许可依存句法分析树库,并实现了《新约》与拉丁语《武加大译本》、哥特语《乌尔菲拉译本》、古教会斯拉夫语《马利亚努斯抄本》和古典亚美尼亚语的诗句级交叉对齐。AthDGC 构建于 PROIEL 树库家族(Haug and Johndal 2008;Eckhoff et al. 2018)之上,该家族为本项目确立了架构和通用希腊语参考集。标注采用 Stanford Stanza 经 PROIEL 训练的工作流;句子级对齐使用多语言句子嵌入模型 LaBSE;词级对齐通过 AwesomeAlign 流程利用多语言 BERT 注意力机制。v0.4 版本提供精选样本及开源工具包;完整标注语料库分区仍在希腊国家级高性能计算系统上进行 v0.5 审计。定量规模、每个文本见证的诗句计数以及每个时期的标注行计数会在审计通过后于 v0.5 发布说明中报告。概念 DOI:https://doi.org/10.5281/zenodo.20439182。

## 提交历史

来自:Nikolaos Lavidas [查看电子邮件 (https://arxiv.org/show-email/218ff916/2606.15510)] **[v1]** 2026年6月13日 星期六 23:38:39 UTC (120 KB)

相似文章

DraDDP:一个多模态多方对话话语解析数据集

arXiv cs.CL

本文介绍了DraDDP,这是首个公开的英文多模态多方对话话语解析数据集,基于美国电视剧构建,包含495个片段、6,374个话语和9.1小时的视频。基准测试表明,多模态信息有助于改善对话结构和关系类型的解析。