三个佛教词汇:英语巴利经典中经、律、论三藏的计量文体学分析
摘要
本文运用计量文体学方法,分析英语译本巴利经典中经藏、律藏和论藏之间的词汇差异。
arXiv:2606.25372v1 公告类型:新 \n摘要:我们提出了对三藏(Tipitaka)全部三藏英语译本的计量文体学分析,扩展了先前仅针对经藏(Sutta Pitaka)的研究。语料库包含来自Bhikkhu Sujato的经藏(114,591个片段,CC0许可)、Bhikkhu Brahmali的律藏(7,923个片段,CC0 2026)、I.B. Horner的1938年律藏译本(2,826个片段)、三个《阿毗达摩义摄》(Abhidhammattha Sangaha)纲要的英译本(2,077个片段),以及来自法藏部和说一切有部的跨传承律藏文本。我们计算了带有OLS拟合指数的Zipf等级-频率分布、移动平均型例比(MATTR-500)、数字词密度以及词汇重叠度(Jaccard和Szymkiewicz-Simpson系数)。主要发现:(1)所有语料库均呈现出符合Zipf分布的特征(R² > 0.989);律藏最接近理想Zipf斜率-1,而《阿毗达摩义摄》语料库偏离最大,'consciousness'在第8位取代了语法助词;(2)MATTR-500显示上座部经藏和律藏的词汇多样性几乎相同(0.399和0.400),而《阿毗达摩义摄》语料库的多样性确实更高(0.560),这通过控制规模的分样本得到确认;(3)《阿毗达摩义摄》语料库的数字词密度最高(3.26%),与其对心理和物质范畴的系统枚举一致;(4)说一切有部律藏与上座部律藏共享20.0%的词汇(Jaccard系数)和49.1%(重叠系数),反映了两个千年间共同的律法传承;(5)同一律藏源文本的两个英译本在88年间仅共享24.2%的词汇,其中jhana的'musing'与'absorption'、parajika的'defeat'与'expulsion'是最具诊断性的变化。所有结果均为点估计;未进行显著性检验。代码和数据作为Darshana Graph语料库(arXiv:2606.18222)的开源扩展发布。
查看缓存全文
缓存时间: 2026/06/25 05:11
# 三种佛教词汇:英语巴利经典在经、律、论三藏中的计算文体测量 来源:https://arxiv.org/abs/2606.25372 书目工具 ## 书目工具 书目探索器 点击切换 代码、数据与媒体 ## 本文相关的代码、数据与媒体 演示 ## 演示 相关论文 ## 推荐与搜索工具 关于arXivLabs ## arXivLabs:与社区合作者的实验项目 arXivLabs 是一个框架,允许合作者直接在 arXiv 网站上开发和分享新功能。 与 arXivLabs 合作的个人和组织均已接受并认可我们关于开放、社区、卓越以及用户数据隐私的价值观。arXiv 致力于践行这些价值观,仅与遵守这些价值观的伙伴合作。 是否有能为 arXiv 社区增添价值的项目创意?**了解更多关于 arXivLabs 的信息**(https://info.arxiv.org/labs/index.html)。
相似文章
从金刚乘的度母到孟加拉的鲍尔:孟加拉佛教、性力派与毗湿奴派传统间词汇传播的计算研究
本文对孟加拉佛教、性力派与毗湿奴派传统间的词汇传播进行了计算分析,考察了词汇与概念如何在各宗教社群间流动。
PaliBench:面向古典语言翻译基准的多参考蓝图
介绍PaliBench,一个用于巴利语到英语翻译的多参考基准,采用多位学者的独立翻译,并提供一种可复用的方法论,用于为古典语言创建类似的基准测试。
Vocabi
Vocabi 是一款工具,帮助用户在阅读时翻译、保存和记忆单词。
CombEval: 评估大语言模型中组合计数能力的框架
CombEval 是一个动态基准测试,用于评估大语言模型中的组合计数能力,通过类型化规范生成带有求解器验证答案的问题。它在直接设置和代码增强设置下测试了11种大语言模型,并发现模型在处理有序对象、不可区分元素、相对约束和嵌套依赖时存在脆弱性。
从重复模式的层次复用角度衡量语言复杂性
提出阶梯路径指数作为基于算法信息论的语言复杂度度量方法,并将其应用于21个平行语料库。该指数在不同语言间近似不变,支持等复杂度假说,并揭示了字符库与语料长度之间的权衡关系。