Svarna:一个面向现代希腊语的开源语料库工作台

arXiv cs.CL 论文

摘要

Svarna 是一个面向现代希腊语的开源网络语料库工作台,整合了多个数据库,包含超过 5.07 亿词,并提供多种语言分析工具,采用 MIT 许可证发布。

arXiv:2607.00970v1 Announce Type: new 摘要:本文介绍了 Svarna,一个面向现代希腊语的自由开源网络语料库工作台。Svarna 整合了五个涵盖不同语域(机构、文学、方言、社交媒体和历史)的数据库,总计提供超过 5.07 亿词和约 2900 万句子。该平台填补了希腊语言技术中长期存在的空白。尽管存在多种语料库资源,但它们分散在不同平台上,且在许多情况下,机构访问受限或已无法在线获取。Svarna 将这些资源整合到单个界面中,无需登录、安装或专门培训即可使用。该系统提供带有 KWIC 标记功能的搭配索引器、频率分析(包括按语域归一化)、使用互信息的搭配提取、包含 93 个希腊语话语标记的词典及其分布概况、文本级分析工具(包括 n-gram、变体和搭配网络)、使用对数比进行的语域比较、正则表达式搜索,以及用于语用注释和自由研究模式的可选 LLM 层。该平台基于通过 FastAPI 后端提供的 SQLite FTS5 全文索引构建,以 Docker 容器形式部署在 Azure 上,并根据 MIT 许可证发布。源代码、构建脚本和部署配置均在 GitHub 上公开。用户可以添加自己的语料库并部署自己的实例。本文档描述了系统设计、语料库结构以及展示平台支持的各种查询的用例。Svarna 是探索现有数据的第一步,预计将为未来更全面的研究奠定基础。
查看原文
查看缓存全文

缓存时间: 2026/07/02 05:39

# Svarna:面向现代希腊语的开源语料库工作台
来源:https://arxiv.org/abs/2607.00970
查看 PDF (https://arxiv.org/pdf/2607.00970)

> 摘要:本文介绍了 Svarna,一个面向现代希腊语的免费开源、基于 Web 的语料库工作台。Svarna 整合了五个覆盖不同语域的数据库,包括制度性、文学、方言、社交媒体和历史语料,总计超过 5.07 亿个词和约 2900 万个句子。该平台填补了希腊语言技术中长期存在的空白。尽管存在多种语料资源,但它们分散在不同的平台上,且在许多情况下,机构访问受到限制或已无法在线获取。Svarna 将这些资源整合到统一界面中,无需登录、安装或专门培训即可使用。该系统提供带有 KWIC 标记功能的索引工具,包括按语域归一化的词频分析、基于互信息的搭配提取、包含 93 个希腊语话语标记的词典(提供分布概况)、文本级分析工具(如 n-gram、变体及搭配网络)、使用对数比值的语域对比、正则表达式搜索,以及可选的 LLM 层用于语用标注和自由研究模式。该平台基于 SQLite FTS5 全文索引构建,通过 FastAPI 后端提供支持,以 Docker 容器形式部署在 Azure 上,并以 MIT 许可证发布。源代码、构建脚本和部署配置均可在 GitHub 上公开获取。用户可以添加自己的语料库并部署自己的实例。本文档描述了系统设计、语料库结构以及展示平台所支持的各种查询的用例。Svarna 作为探索可用数据的第一步,预计将为未来更全面的研究奠定基础。

## 提交历史

来自:Stergios Chatzikyriakidis \[查看电子邮件 (https://arxiv.org/show-email/48ca4b5c/2607.00970)\] **\[v1\]** 2026 年 7 月 1 日星期三 14:05:02 UTC (1,299 KB)

相似文章