三个佛教词汇:英语巴利经典中经、律、论三藏的计量文体学分析

arXiv cs.CL 论文

摘要

本文运用计量文体学方法,分析英语译本巴利经典中经藏、律藏和论藏之间的词汇差异。

arXiv:2606.25372v1 公告类型:新 \n摘要:我们提出了对三藏(Tipitaka)全部三藏英语译本的计量文体学分析,扩展了先前仅针对经藏(Sutta Pitaka)的研究。语料库包含来自Bhikkhu Sujato的经藏(114,591个片段,CC0许可)、Bhikkhu Brahmali的律藏(7,923个片段,CC0 2026)、I.B. Horner的1938年律藏译本(2,826个片段)、三个《阿毗达摩义摄》(Abhidhammattha Sangaha)纲要的英译本(2,077个片段),以及来自法藏部和说一切有部的跨传承律藏文本。我们计算了带有OLS拟合指数的Zipf等级-频率分布、移动平均型例比(MATTR-500)、数字词密度以及词汇重叠度(Jaccard和Szymkiewicz-Simpson系数)。主要发现:(1)所有语料库均呈现出符合Zipf分布的特征(R² > 0.989);律藏最接近理想Zipf斜率-1,而《阿毗达摩义摄》语料库偏离最大,'consciousness'在第8位取代了语法助词;(2)MATTR-500显示上座部经藏和律藏的词汇多样性几乎相同(0.399和0.400),而《阿毗达摩义摄》语料库的多样性确实更高(0.560),这通过控制规模的分样本得到确认;(3)《阿毗达摩义摄》语料库的数字词密度最高(3.26%),与其对心理和物质范畴的系统枚举一致;(4)说一切有部律藏与上座部律藏共享20.0%的词汇(Jaccard系数)和49.1%(重叠系数),反映了两个千年间共同的律法传承;(5)同一律藏源文本的两个英译本在88年间仅共享24.2%的词汇,其中jhana的'musing'与'absorption'、parajika的'defeat'与'expulsion'是最具诊断性的变化。所有结果均为点估计;未进行显著性检验。代码和数据作为Darshana Graph语料库(arXiv:2606.18222)的开源扩展发布。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:11

# 三种佛教词汇:英语巴利经典在经、律、论三藏中的计算文体测量  
来源:https://arxiv.org/abs/2606.25372  
书目工具  

## 书目工具  

书目探索器 点击切换  

代码、数据与媒体  

## 本文相关的代码、数据与媒体  

演示  

## 演示  

相关论文  

## 推荐与搜索工具  

关于arXivLabs  

## arXivLabs:与社区合作者的实验项目  

arXivLabs 是一个框架,允许合作者直接在 arXiv 网站上开发和分享新功能。  

与 arXivLabs 合作的个人和组织均已接受并认可我们关于开放、社区、卓越以及用户数据隐私的价值观。arXiv 致力于践行这些价值观,仅与遵守这些价值观的伙伴合作。  

是否有能为 arXiv 社区增添价值的项目创意?**了解更多关于 arXivLabs 的信息**(https://info.arxiv.org/labs/index.html)。

相似文章

Vocabi

Product Hunt

Vocabi 是一款工具,帮助用户在阅读时翻译、保存和记忆单词。

CombEval: 评估大语言模型中组合计数能力的框架

arXiv cs.AI

CombEval 是一个动态基准测试,用于评估大语言模型中的组合计数能力,通过类型化规范生成带有求解器验证答案的问题。它在直接设置和代码增强设置下测试了11种大语言模型,并发现模型在处理有序对象、不可区分元素、相对约束和嵌套依赖时存在脆弱性。

从重复模式的层次复用角度衡量语言复杂性

arXiv cs.CL

提出阶梯路径指数作为基于算法信息论的语言复杂度度量方法,并将其应用于21个平行语料库。该指数在不同语言间近似不变,支持等复杂度假说,并揭示了字符库与语料长度之间的权衡关系。