三个佛教词汇：英语巴利经典中经、律、论三藏的计量文体学分析

arXiv cs.CL 2026/06/25 04:00 论文

computational-stylometry pali-canon buddhist-texts text-analysis digital-humanities stylometry nlp

摘要

本文运用计量文体学方法，分析英语译本巴利经典中经藏、律藏和论藏之间的词汇差异。

arXiv:2606.25372v1 公告类型：新 \n摘要：我们提出了对三藏（Tipitaka）全部三藏英语译本的计量文体学分析，扩展了先前仅针对经藏（Sutta Pitaka）的研究。语料库包含来自Bhikkhu Sujato的经藏（114,591个片段，CC0许可）、Bhikkhu Brahmali的律藏（7,923个片段，CC0 2026）、I.B. Horner的1938年律藏译本（2,826个片段）、三个《阿毗达摩义摄》（Abhidhammattha Sangaha）纲要的英译本（2,077个片段），以及来自法藏部和说一切有部的跨传承律藏文本。我们计算了带有OLS拟合指数的Zipf等级-频率分布、移动平均型例比（MATTR-500）、数字词密度以及词汇重叠度（Jaccard和Szymkiewicz-Simpson系数）。主要发现：（1）所有语料库均呈现出符合Zipf分布的特征（R² > 0.989）；律藏最接近理想Zipf斜率-1，而《阿毗达摩义摄》语料库偏离最大，'consciousness'在第8位取代了语法助词；（2）MATTR-500显示上座部经藏和律藏的词汇多样性几乎相同（0.399和0.400），而《阿毗达摩义摄》语料库的多样性确实更高（0.560），这通过控制规模的分样本得到确认；（3）《阿毗达摩义摄》语料库的数字词密度最高（3.26%），与其对心理和物质范畴的系统枚举一致；（4）说一切有部律藏与上座部律藏共享20.0%的词汇（Jaccard系数）和49.1%（重叠系数），反映了两个千年间共同的律法传承；（5）同一律藏源文本的两个英译本在88年间仅共享24.2%的词汇，其中jhana的'musing'与'absorption'、parajika的'defeat'与'expulsion'是最具诊断性的变化。所有结果均为点估计；未进行显著性检验。代码和数据作为Darshana Graph语料库（arXiv:2606.18222）的开源扩展发布。

查看原文

查看缓存全文

缓存时间: 2026/06/25 05:11

# 三种佛教词汇：英语巴利经典在经、律、论三藏中的计算文体测量  
来源：https://arxiv.org/abs/2606.25372  
书目工具  

## 书目工具  

书目探索器 点击切换  

代码、数据与媒体  

## 本文相关的代码、数据与媒体  

演示  

## 演示  

相关论文  

## 推荐与搜索工具  

关于arXivLabs  

## arXivLabs：与社区合作者的实验项目  

arXivLabs 是一个框架，允许合作者直接在 arXiv 网站上开发和分享新功能。  

与 arXivLabs 合作的个人和组织均已接受并认可我们关于开放、社区、卓越以及用户数据隐私的价值观。arXiv 致力于践行这些价值观，仅与遵守这些价值观的伙伴合作。  

是否有能为 arXiv 社区增添价值的项目创意？**了解更多关于 arXivLabs 的信息**（https://info.arxiv.org/labs/index.html）。

三个佛教词汇：英语巴利经典中经、律、论三藏的计量文体学分析

相似文章

从金刚乘的度母到孟加拉的鲍尔：孟加拉佛教、性力派与毗湿奴派传统间词汇传播的计算研究

PaliBench：面向古典语言翻译基准的多参考蓝图

Vocabi

CombEval: 评估大语言模型中组合计数能力的框架

从重复模式的层次复用角度衡量语言复杂性

提交意见反馈