从诗句预测诗人籍贯:基于《全唐诗》的方言区域语言特征计算分析

arXiv cs.CL 论文

摘要

本文使用TF-IDF和神经网络模型,基于《全唐诗》的语言特征预测诗人的地理籍贯,发现可检测的区域语言指纹、距离衰减效应以及时间对信号的调节作用。

arXiv:2606.24093v1 公告类型:新 摘要:我们提出疑问:唐代诗人的地理籍贯是否在其作品中留下了可检测的语言痕迹。我们汇总《全唐诗》中每位作者的全部诗作,并通过中国传记数据库(CBDB)将诗人与其籍贯所在的行政道关联起来,构建了一个涵盖唐代十道357位诗人的诗人级语料库,并将籍贯预测建模为多类分类问题。使用字符n-gram TF-IDF以及可解释的领域特征(意象、季节、用典),经典模型和神经网络模型预测诗人所属大区(南方 vs. 北方)的准确率达到0.69,远高于多数类基线0.53,且更精细的道级预测也优于随机水平。除分类外,还有三项发现:(i)诗语的区域距离随地理距离增大而增加(九道Mantel r=0.40,p≈0.09),证明了诗语中的距离衰减效应。(ii)该信号与时间存在交互:盛唐时期南北可分离性低于随机水平,晚唐时最强,这与帝国鼎盛时期的宫廷驱动同质化及随后的区域分化趋势一致。(iii)模型的高置信度错误具有历史意义——初唐时期,每个误判都是南方诗人被识别为北方诗人,反映了北方宫廷语言的威望。我们进一步表明,当通过分层冻结编码器表示处理整个语料库时,古汉语Transformer(GuwenBERT)仅匹配——而非超越——简单的TF-IDF,且两者结合并无增益,说明字符n-gram已能捕捉区域信号。我们的研究成果将可解释机器学习定位为文学史研究中的假设生成器。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:45

# 《全唐诗》中区域语言指纹的计算分析
来源:https://arxiv.org/html/2606.24093
## 从诗句预测诗人籍贯:基于《全唐诗》的区域语言指纹计算分析

Chi-Sheng Chen¹ Hung-Yun Liu² ¹哈佛大学 ²华盛顿大学 [email protected] [email protected]

###### 摘要

我们探究唐代诗人的地理籍贯是否在其作品中留下了可检测的语言痕迹。聚合《全唐诗》(*Quan Tang Shi*,《全唐诗》)中每位作者名下的所有诗作,并通过中国历代人物传记数据库(CBDB,中國歷代人物傳記資料庫)将诗人与其籍贯的行政道(*dao*,道)关联起来,我们构建了一个涵盖十道357位诗人的诗人级语料库,并将籍贯预测设定为多分类问题。使用字符n-gram TF-IDF以及可解释的领域特征(意象、季节和用典),经典模型和神经网络模型预测诗人的大区域(南方 vs. 北方)准确率达到0.690.69,远高于0.530.53的多数类基线,并在更细粒度的道级预测上优于随机水平。除了分类本身,还有三个发现:(i)道际语言距离随地理距离增加而增长(九道间的曼特尔检验 *r* = 0.40,*p* ≈ 0.09),为诗学语言中的距离衰减效应提供了证据;(ii)该信号与时代存在交互:盛唐时期南/北可分离性接近随机水平,晚唐时期最强,这符合帝国鼎盛时期宫廷驱动的同质化及随后区域分化的历史趋势;(iii)模型的高置信度错误具有历史意义——初唐时期,每次误分类都是南方诗人被误判为北方诗人,反映了北方宫廷语体的威望。我们进一步发现,当通过层级式冻结编码器表征给模型提供全部语料时,一个古典中文Transformer(GuwenBERT)仅与简单的TF-IDF持平而未能超越,两者结合也未见提升,这表明字符n-gram已捕捉到区域信号。我们的结果将可解释机器学习定位为文学史研究的假设生成工具。

†† 已被数字人文2026(DH2026,国际数字人文组织联盟ADHO)接收为短论文。

## 1 引言

文学史家长期以来一直争论唐代是否存在区域流派和地方诗学传统,但地理籍贯是否会在诗学语言中表现为可量化的模式这一问题,一直缺乏系统性研究。我们采用计算方法来探讨。《全唐诗》编撰于清代,是唐代诗歌最全面的选集,收录了约49,000首诗歌,作者超过2,200位。我们提出三个问题:(1)能否仅凭诗人的作品集预测其籍贯所在道?(2)哪些语言特征——词汇选择、意象、声调模式或主题偏好——携带最强的区域信号?(3)这种区域指纹是否在整个唐代的诗学时期中持续存在?

我们发现,籍贯的可预测性远超随机水平;意象和词汇选择主导信号,而声调模式较弱;最有趣的是,区域信号受到地理(距离衰减)和时代(盛唐的同质化 vs. 晚唐的分化)的共同调节。我们不是将模型视为细读的替代品,而是作为揭示值得解读的模式的工具,包括其自身提供信息的错误。

## 2 数据

#### 语料库。

我们解析《全唐诗》全部900卷,并将每首诗归入其作者名下,得到诗人级语料库。文本经过清洗,仅保留汉字;移除了由来源引入的每行标题前缀以及作者姓名上的角色后缀(例如*zhu*著、*zhuan*撰)。我们针对确凿的诗人(如白居易,约2600首诗)验证了拼接结果。

#### 标签。

每位诗人的籍贯道(*dao*,道)取自CBDB[1 (https://arxiv.org/html/2606.24093#bib.bib5)],即唐代最高行政层级。我们排除了现存诗作少于五首或归属不清的诗人,最终得到横跨10道的357位诗人。分布严重不平衡(江南道126位 vs. 陇右道6位;图1 (https://arxiv.org/html/2606.24093#S2.F1)),我们通过分层交叉验证和类别加权来处理。此外,我们还研究了三个粒度更粗的目标:二分类的南方 vs. 北方(南/北)划分和三组宏观分组。

参见图注 图1:每道诗人数量(红色 = 南方,蓝色 = 北方;诗人拥有 ≥ 5首诗作)。语料库以江南道和中部/北部各道为主。

## 3 方法

#### 特征。

两种特征家族被拼接成诗人表征:(i) 字符n-gram TF-IDF(1–2 gram,≤ 8000 个特征,次线性词频),以及 (ii) 可解释的*领域特征*,每个都是基于字符的相对频率:意象类别(山、水、植物、动物、天体)、季节和时间标记、用典密度(经典引用和历史人物)以及类符-型符比。

#### 模型与评估。

我们比较了逻辑回归、线性SVM、随机森林、前馈神经网络(MLP)和一个微调过的古典中文Transformer(GuwenBERT[6 (https://arxiv.org/html/2606.24093#bib.bib3)],一个针对文学中文的RoBERTa[2 (https://arxiv.org/html/2606.24093#bib.bib4)])。所有经典模型均使用平衡类别权重,并通过分层5折交叉验证进行评估,报告准确率和宏平均F1,并与最频繁类基线进行比较。由于每位诗人是一个单独样本,其特征总结其整个语料库,交叉验证已经衡量了对未见出诗人的泛化能力。模型使用scikit-learn[4 (https://arxiv.org/html/2606.24093#bib.bib1)]构建。

## 4 结果

### 4.1 籍贯可预测,远高于随机水平

表1 (https://arxiv.org/html/2606.24093#S4.T1) 和图2 (https://arxiv.org/html/2606.24093#S4.F2) 报告了南/北任务的结果。最佳模型(MLP)达到了0.690.69的准确率和宏平均F1,远高于0.530.53的多数类基线。任务难度随粒度增加而增加:三分类宏观任务的宏平均F1为0.430.43,10分类道级任务的宏平均F1为0.180.18——仍大约是对应基线的两倍。

表1:南/北分类(5折交叉验证)。
参见图注 图2:南/北任务上的模型比较(5折交叉验证)。虚线:随机水平。
### 4.2 边缘 vs. 中心

在道级(图3 (https://arxiv.org/html/2606.24093#S4.F3)),文化上最独特的边缘区域最具可识别性:江南道的召回率达到0.710.71,而围绕政治中心长安和洛阳的诸道(关内道、河南道)则相互严重混淆。这种不对称表明,靠近帝国朝廷对诗学语言产生了同质化影响,而地理和文化距离则保留了地方独特性(图4 (https://arxiv.org/html/2606.24093#S4.F4))。

参见图注 图3:道级混淆矩阵(按行归一化)和各道可识别性(召回率)。江南道的可分离性遥遥领先。
参见图注 图4:可识别性(召回率)随着与首都(长安)距离的增加而上升:边缘区域比中心区域更具区分度。
### 4.3 哪些特征携带信号

意象是最强的区域标记:南方诗人比北方诗人更常使用山和水意象(图5 (https://arxiv.org/html/2606.24093#S4.F5))。最具区分度的字符(图5 (https://arxiv.org/html/2606.24093#S4.F5),右)是可解释的——南方权重加载于佛教/隐士和山水词汇上,北方权重则加载于宫廷和宫体闺怨主题上。词汇和功能字符的选择贡献显著;声调模式携带的地理信号相对较弱,这很可能是因为律诗的格律在各个区域都是标准化的。

参见图注

参见图注

图5:左:意象特征,南方 vs. 北方。右:每侧最具区分度的字符(条形标签即是这些字符本身)。
### 4.4 距离衰减

我们直接检验方言地理学假设:相邻道之间的诗学语言应更为相似。对于每对道,我们计算语言距离(1 − 余弦值,基于平均TF-IDF向量)和地理距离(道质心之间的球面距离),并通过曼特尔排列检验[3 (https://arxiv.org/html/2606.24093#bib.bib7)]对两者进行相关性分析。在九个诗人数量充足的道上,我们发现 *r* = 0.40(*p* ≈ 0.09):地理距离更远的道,语言距离也更大(图6 (https://arxiv.org/html/2606.24093#S4.F6))。在该样本量下,这一效应具有提示性而非决定性,并且更多地是由南方江南道语体的强烈独特性驱动,而非平滑的地理梯度。

参见图注 图6:道际语言距离随地理距离增加而增长。
### 4.5 信号真实存在,且随时间变化

我们排除了两个混淆因素。*语料长度*不是原因:南方和北方的中位数语料大小几乎相同,将每位诗人的语料截断为统一预算后,准确率几乎不变(0.60 → 0.59;图7 (https://arxiv.org/html/2606.24093#S4.F7))。*时代*确实与地域相关(χ² = 11.9,*p* = 0.008:初唐偏向北方,晚唐偏向南方,反映了文学文化的南迁)——但区域信号在时代内部依然存在,而且其强度本身就是一个发现:南/北任务在*盛唐时接近随机水平*(0.500.50),在*晚唐时最强*(0.680.68;图7 (https://arxiv.org/html/2606.24093#S4.F7))。这是定量证据,表明帝国鼎盛时期宫廷驱动的同质化在中央权力削弱后让位于区域分化。

参见图注

参见图注

图7:左:语料长度控制实验(稳定 ⇒ 不是长度人为产物)。右:各时代的南/北可分离性。
### 4.6 将模型的错误解读为文学史

分类器的高置信度错误在传记和历史层面都具有意义。按时代分解(图8 (https://arxiv.org/html/2606.24093#S4.F8)),*初唐的每一次*误分类都是南方诗人被读作北方诗人(7/7),而相反方向没有错误。初唐的南方人物(如虞世南、褚亮、贺知章)使用主导的北方宫廷语体写作,因此模型将其诗作读作北方。这个“错误”因此编码了宫廷的同质化拉力——佐证了第4.5节 (https://arxiv.org/html/2606.24093#S4.SS5) ——并说明了模型如何能为细读和文学史生成假设。

参见图注 图8:各时代误分类的方向。初唐:全部为南方 → 北方。
### 4.7 对Transformer的公平比较

在250字符片段上朴素微调GuwenBERT,然后平均片段概率,在分组交叉验证下仅得到0.62 ± 0.06——但这限制了Transformer,它从未看到TF-IDF所读取的完整语料库。我们通过层级式表征消除了不对称性:用*冻结*的GuwenBERT编码每个片段,对其token状态进行掩码平均池化,然后将一位诗人的所有片段平均池化为一个向量,在*相同的*分层5折协议下进行评估。在给予完整语料库后,Transformer现在*与*最佳经典模型持平(0.6740.674,图9 (https://arxiv.org/html/2606.24093#S4.F9));关键的是,将BERT与TF-IDF结合并无增益,表明字符n-gram已捕获到可用的区域信号。在这个规模的语料库以及字符作为自然单位的文字体系中,预训练编码器并未提供超出简单词汇统计的信息。

参见图注 图9:相同5折交叉验证下的公平比较:层级冻结BERT与TF-IDF持平;混合模型未优于二者中的任何一个。

## 5 讨论

从方法论角度看,本研究展示了地理语言学分析——传统上局限于口语方言——可以应用于历史文学语料库,而且可解释模型能够产生人文学意义上深度见解,而非黑箱预测。从实质内容看,我们的证据回应了关于唐代区域学派的长期争论:在共享古典教育和以宫廷为中心的威望语体的帝国内部,可检测的区域变异依然存在,集中于意象和词汇选择。时间模式重构了这一争论——区域独特性并非恒定不变,而是随着王朝的政治整合而起伏。

## 6 局限

可用样本(357位诗人;南/北任务242位)较小,归属和地理标签继承自来源和CBDB的噪声,而按时代划分的分析每个时代仅有数十位诗人。声调(平仄)特征需要中古汉语韵书,我们仅做了近似处理。距离衰减效应具有提示性(*p* ≈ 0.09),如果能采用更细粒度(州级)的地理编码和每个区域更多的诗人,效果会更显著。

## 7 结论

唐代诗人的地理籍贯在其诗作中留下了计算可检测的痕迹,主要由意象和词汇选择承载,随地理距离而衰减,并受历史时代调节。可解释模型,甚至它们的错误,都能为文学史生成具体的假设——在人文学探究中实现富有成效的人机协作。未来工作将扩展时间分析,并构建文体相似性网络,以探究文本邻近性是否追踪地理,还是通过文学影响超越地理。

## 数据与代码可用性

《全唐诗》文本属于公有领域;传记和地理归属源自中国历代人物传记数据库[1 (https://arxiv.org/html/2606.24093#bib.bib5)]。所有数据处理、建模、分析和图表生成代码均公开于 https://github.com/ChiShengChen/ctext.org_-crawler (subject:gender_poem_predictor/)。衍生出的诗人级数据集可通过发布的脚本重建。

## 致谢

我们感谢中国历代人物传记数据库(CBDB)和中国哲学书电子化计划[5 (https://arxiv.org/html/2606.24093#bib.bib9)] 的维护者提供使本研究成为可能的资源,并感谢 GuwenBERT[6 (https://arxiv.org/html/2606.24093#bib.bib3)] 和 scikit-learn[4 (https://arxiv.org/html/2606.24093#bib.bib1)] 的开发者的开源工具。

## 参考文献

- [1] (2024) 中国历代人物传记数据库 (cbdb). 注:https://projects.iq.harvard.edu/cbdb 被引于:§2 (https://arxiv.org/html/2606.24093#S2.SS0.SSS0.Px2.p1.2), 数据与代码可用性 (https://arxiv.org/html/2606.24093#Sx1.p1.1).
- [2] Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer, and V. Stoyanov (2019) RoBERTa: a robustly optimized BERT pretraining approach. arXiv preprint arXiv:1907.11692. 被引于:§3 (https://arxiv.org/html/2606.24093#S3.SS0.SSS0.Px2.p1.1).
- [3] N. Mantel (1967) The detection of disease clustering and a generalized regression approach. Cancer Research 27 (2), pp. 209–220. 被引于:§4.4 (https://arxiv.org/html/2606.24093#S4.SS4.p1.3).
- [4] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofe

相似文章

面向威胁主体分析的日本网络评论作者归属基础研究

arXiv cs.CL

这是一项将风格学作者归属技术应用于威胁情报的基础研究。我们使用日本Rakuten的评论内容,对比了TF-IDF+LR、BERT嵌入、BERT微调以及度量学习方法。总体而言,BERT-FT的表现最佳;但在将任务扩展至数百位作者的场景时,TF-IDF+LR在稳定性与效率上展现出更大优势。

面向明清之际文集个人书信标题的微调BERT分类器

arXiv cs.CL

本文介绍Lepton,一个微调的BERT分类器,用于预测古典中文文集目录中的标题是私人信件还是序言(尤其是易混淆的赠序)。该模型利用了来自明末清初三十三位文人的5,438条手工标注标题。

随流而动:文本到图像模型中文本词元间的信息流动

arXiv cs.CL

本文研究了文本到图像模型中语义信息在文本词元间的分布情况,发现信息集中程度和跨条目交互显著影响图像生成的语义对齐。作者采用修补技术证明,在编码阶段进行简单干预即可提升对齐质量。

面向中国方言的语音驱动端到端语言辨识

arXiv cs.CL

本文研究了用于中国方言细粒度辨识的语音驱动特征,采用了一种端到端模型,通过卷积神经网络结合基于MFCC的特征与词级嵌入,性能优于文本驱动方法。