Svarna：一个面向现代希腊语的开源语料库工作台

arXiv cs.CL 2026/07/02 04:00 论文

摘要

Svarna 是一个面向现代希腊语的开源网络语料库工作台，整合了多个数据库，包含超过 5.07 亿词，并提供多种语言分析工具，采用 MIT 许可证发布。

arXiv:2607.00970v1 Announce Type: new 摘要：本文介绍了 Svarna，一个面向现代希腊语的自由开源网络语料库工作台。Svarna 整合了五个涵盖不同语域（机构、文学、方言、社交媒体和历史）的数据库，总计提供超过 5.07 亿词和约 2900 万句子。该平台填补了希腊语言技术中长期存在的空白。尽管存在多种语料库资源，但它们分散在不同平台上，且在许多情况下，机构访问受限或已无法在线获取。Svarna 将这些资源整合到单个界面中，无需登录、安装或专门培训即可使用。该系统提供带有 KWIC 标记功能的搭配索引器、频率分析（包括按语域归一化）、使用互信息的搭配提取、包含 93 个希腊语话语标记的词典及其分布概况、文本级分析工具（包括 n-gram、变体和搭配网络）、使用对数比进行的语域比较、正则表达式搜索，以及用于语用注释和自由研究模式的可选 LLM 层。该平台基于通过 FastAPI 后端提供的 SQLite FTS5 全文索引构建，以 Docker 容器形式部署在 Azure 上，并根据 MIT 许可证发布。源代码、构建脚本和部署配置均在 GitHub 上公开。用户可以添加自己的语料库并部署自己的实例。本文档描述了系统设计、语料库结构以及展示平台支持的各种查询的用例。Svarna 是探索现有数据的第一步，预计将为未来更全面的研究奠定基础。

查看原文

查看缓存全文

缓存时间: 2026/07/02 05:39

# Svarna：面向现代希腊语的开源语料库工作台
来源：https://arxiv.org/abs/2607.00970
查看 PDF (https://arxiv.org/pdf/2607.00970)

> 摘要：本文介绍了 Svarna，一个面向现代希腊语的免费开源、基于 Web 的语料库工作台。Svarna 整合了五个覆盖不同语域的数据库，包括制度性、文学、方言、社交媒体和历史语料，总计超过 5.07 亿个词和约 2900 万个句子。该平台填补了希腊语言技术中长期存在的空白。尽管存在多种语料资源，但它们分散在不同的平台上，且在许多情况下，机构访问受到限制或已无法在线获取。Svarna 将这些资源整合到统一界面中，无需登录、安装或专门培训即可使用。该系统提供带有 KWIC 标记功能的索引工具，包括按语域归一化的词频分析、基于互信息的搭配提取、包含 93 个希腊语话语标记的词典（提供分布概况）、文本级分析工具（如 n-gram、变体及搭配网络）、使用对数比值的语域对比、正则表达式搜索，以及可选的 LLM 层用于语用标注和自由研究模式。该平台基于 SQLite FTS5 全文索引构建，通过 FastAPI 后端提供支持，以 Docker 容器形式部署在 Azure 上，并以 MIT 许可证发布。源代码、构建脚本和部署配置均可在 GitHub 上公开获取。用户可以添加自己的语料库并部署自己的实例。本文档描述了系统设计、语料库结构以及展示平台所支持的各种查询的用例。Svarna 作为探索可用数据的第一步，预计将为未来更全面的研究奠定基础。

## 提交历史

来自：Stergios Chatzikyriakidis \[查看电子邮件 (https://arxiv.org/show-email/48ca4b5c/2607.00970)\] **\[v1\]** 2026 年 7 月 1 日星期三 14:05:02 UTC (1,299 KB)

Svarna：一个面向现代希腊语的开源语料库工作台

相似文章

AthDGC：一个开放的历时希腊语树库，具有印欧语平行语料

@cognitivelab_ai：推出NayanaOCR语料库——包含22种语言的100多万张文档图像，最大规模开源合成、多语言、多模态、多任务文档语料库

一种可复现的、面向Katharevousa希腊语议会文本的Universal Dependencies风格流水线

@tom_doerr: 本地分析超过4000万行代码库 https://github.com/giancarloerra/SocratiCode…

PaliBench：面向古典语言翻译基准的多参考蓝图

提交意见反馈