Svarna:一个面向现代希腊语的开源语料库工作台
摘要
Svarna 是一个面向现代希腊语的开源网络语料库工作台,整合了多个数据库,包含超过 5.07 亿词,并提供多种语言分析工具,采用 MIT 许可证发布。
arXiv:2607.00970v1 Announce Type: new
摘要:本文介绍了 Svarna,一个面向现代希腊语的自由开源网络语料库工作台。Svarna 整合了五个涵盖不同语域(机构、文学、方言、社交媒体和历史)的数据库,总计提供超过 5.07 亿词和约 2900 万句子。该平台填补了希腊语言技术中长期存在的空白。尽管存在多种语料库资源,但它们分散在不同平台上,且在许多情况下,机构访问受限或已无法在线获取。Svarna 将这些资源整合到单个界面中,无需登录、安装或专门培训即可使用。该系统提供带有 KWIC 标记功能的搭配索引器、频率分析(包括按语域归一化)、使用互信息的搭配提取、包含 93 个希腊语话语标记的词典及其分布概况、文本级分析工具(包括 n-gram、变体和搭配网络)、使用对数比进行的语域比较、正则表达式搜索,以及用于语用注释和自由研究模式的可选 LLM 层。该平台基于通过 FastAPI 后端提供的 SQLite FTS5 全文索引构建,以 Docker 容器形式部署在 Azure 上,并根据 MIT 许可证发布。源代码、构建脚本和部署配置均在 GitHub 上公开。用户可以添加自己的语料库并部署自己的实例。本文档描述了系统设计、语料库结构以及展示平台支持的各种查询的用例。Svarna 是探索现有数据的第一步,预计将为未来更全面的研究奠定基础。
查看缓存全文
缓存时间: 2026/07/02 05:39
# Svarna:面向现代希腊语的开源语料库工作台 来源:https://arxiv.org/abs/2607.00970 查看 PDF (https://arxiv.org/pdf/2607.00970) > 摘要:本文介绍了 Svarna,一个面向现代希腊语的免费开源、基于 Web 的语料库工作台。Svarna 整合了五个覆盖不同语域的数据库,包括制度性、文学、方言、社交媒体和历史语料,总计超过 5.07 亿个词和约 2900 万个句子。该平台填补了希腊语言技术中长期存在的空白。尽管存在多种语料资源,但它们分散在不同的平台上,且在许多情况下,机构访问受到限制或已无法在线获取。Svarna 将这些资源整合到统一界面中,无需登录、安装或专门培训即可使用。该系统提供带有 KWIC 标记功能的索引工具,包括按语域归一化的词频分析、基于互信息的搭配提取、包含 93 个希腊语话语标记的词典(提供分布概况)、文本级分析工具(如 n-gram、变体及搭配网络)、使用对数比值的语域对比、正则表达式搜索,以及可选的 LLM 层用于语用标注和自由研究模式。该平台基于 SQLite FTS5 全文索引构建,通过 FastAPI 后端提供支持,以 Docker 容器形式部署在 Azure 上,并以 MIT 许可证发布。源代码、构建脚本和部署配置均可在 GitHub 上公开获取。用户可以添加自己的语料库并部署自己的实例。本文档描述了系统设计、语料库结构以及展示平台所支持的各种查询的用例。Svarna 作为探索可用数据的第一步,预计将为未来更全面的研究奠定基础。 ## 提交历史 来自:Stergios Chatzikyriakidis \[查看电子邮件 (https://arxiv.org/show-email/48ca4b5c/2607.00970)\] **\[v1\]** 2026 年 7 月 1 日星期三 14:05:02 UTC (1,299 KB)
相似文章
AthDGC:一个开放的历时希腊语树库,具有印欧语平行语料
本文介绍了AthDGC,这是首个获得公开许可的依存句法分析希腊语树库,跨越八个历时时期,并使用Stanza、LaBSE和多语言BERT等NLP工具与四种古代印欧语进行了诗句级别的交叉对齐。
@cognitivelab_ai:推出NayanaOCR语料库——包含22种语言的100多万张文档图像,最大规模开源合成、多语言、多模态、多任务文档语料库
推出NayanaOCR语料库,这是一个开源的合成文档语料库,包含22种语言的100多万张图像,专为多语言、多模态、多任务的OCR研究而设计。
一种可复现的、面向Katharevousa希腊语议会文本的Universal Dependencies风格流水线
本文介绍了一种可复现的流水线,用于构建面向Katharevousa希腊语议会文本的Universal Dependencies风格解析资源,包括OCR重建、LLM辅助标注以及多个解析器的评估。最佳模型(XLM-R)达到了0.8893的UPOS准确率和0.5162的LAS,显著优于现成的基线模型。
@tom_doerr: 本地分析超过4000万行代码库 https://github.com/giancarloerra/SocratiCode…
SocratiCode 是一个开源代码库上下文引擎,允许AI在本地分析和理解大型代码库(超过4000万行),无需配置,完全保护隐私。
PaliBench:面向古典语言翻译基准的多参考蓝图
介绍PaliBench,一个用于巴利语到英语翻译的多参考基准,采用多位学者的独立翻译,并提供一种可复用的方法论,用于为古典语言创建类似的基准测试。