马尔可夫再读普希金:一场关于《叶甫盖尼·奥涅金》诗性世界的统计之旅

arXiv cs.CL 论文

摘要

研究者用四态马尔可夫链对普希金《叶甫盖尼·奥涅金》及其意大利译本中的元音/辅音模式建模,揭示结构不对称与叙事相关的音韵线索。

arXiv:2604.20221v1 公告类型:新增 摘要:本研究采用符号时间序列分析与马尔可夫建模,探讨《叶甫盖尼·奥涅金》的音韵结构——通过元音/辅音(V/C)的拼写编码——以及一部当代意大利译本。受马尔可夫原始方案的启发,我们构建极简概率模型,捕捉局部 V/C 依赖与大规模序列模式。紧凑的四态马尔可夫链被证明具有描述准确性且可生成,能够再现原序列的自相关与记忆深度等关键特征。所有发现均为探索性质,旨在凸显结构规律,并就潜在叙事动态提出假设。 分析揭示俄意文本间显著不对称:原文记忆深度逐渐衰减,而译文保持更均匀轮廓。为深入探究这一差异,我们引入音韵探针——将表层结构与叙事相关线索关联的短符号模式。随着文本展开追踪这些探针,发现拼写形式与主题发展之间的微妙关联,尤其在俄文原版中。 通过重访马尔可夫将符号分析应用于文学文本的原始提议,并辅以当代计算统计与数据科学工具,本研究表明,即便是最简马尔可夫模型也能支撑复杂诗性材料的探索性分析。当辅以粗粒度语言标注层时,此类模型为比较诗学提供通用框架,并证明风格化结构模式仍可通过基于语言形式的简单表征得以捕捉。
查看原文
查看缓存全文

缓存时间: 2026/04/23 10:03

# 马尔可夫再读普希金:走进《叶甫盖尼·奥涅金》诗性世界的统计之旅  
来源:https://arxiv.org/html/2604.20221  
Angelo Maria Sabatini  
意大利比萨圣安娜高等学院生物机器人研究所  
angelo\.sabatini@santannapisa\.it  

## 摘要  

本研究运用符号时间序列分析与马尔可夫建模,以元音/辅音(V/C)的字母拼写编码为切入点,探讨《叶甫盖尼·奥涅金》的音系结构,并与一部当代意大利译本进行比较。受马尔可夫原始二值编码启发,我们构建了极简概率模型,既捕捉局部 V/C 依赖,也重现大尺度序列模式。一个紧凑的四状态马尔可夫链即可在描述与生成层面同时复现原序列的自相关与记忆深度等关键特征。所有发现均属探索性质,旨在凸显结构规律,并对潜在叙事动力提出假设。  

分析揭示俄、意文本存在显著不对称:原文记忆深度逐渐衰减,而译文保持更为均匀的轮廓。为深入探究这一差异,我们引入“音系探针”——连接表层结构与叙事相关线索的短符号模式。沿文本展开追踪,这些探针在俄文原作中尤其显露出字形形式与主题发展之间的微妙关联。  

通过重访马尔可夫将符号分析用于文学文本的原始提案,并结合当代计算统计与数据科学工具,本研究表明,即便是最简马尔可夫模型也能支撑对复杂诗性材料的探索性分析。若辅以粗粒度语言标注,此类模型可为比较诗学提供通用框架,并证明基于语言形式的极简表征仍能捕捉风格化结构模式。  

## 引言  

在现代科学中,很少有思想能像马尔可夫链那样影响深远且历久弥新。该链由俄国数学家安德烈·A·马尔可夫提出,描述了一种随机过程:系统按仅依赖当前状态的概率规则在状态间转移。状态集对外部观察者可直接观测,也可隐藏,此时观测输出由条件概率分布生成——这便是隐马尔可夫模型(HMM):状态转移与输出发射均受概率律支配的双重随机过程。  

最简单的马尔可夫模型假设“下一状态仅依赖当前状态”(常称无记忆性),但该条件可推广为对最近过去的有限阶依赖,此时链的阶数为 m,即下一状态的概率取决于最近的 m 个状态(m 有限)。  

马尔可夫链支撑了从语音识别[1]、网页搜索[2]、计算生物学[3]、金融[4]、统计物理(研究相互作用粒子系统集体行为)[5],到生物医学[6,7]的广泛应用。  

然而鲜为人知的是,马尔可夫链的起源远非这些日后显赫的领域。它源于马尔可夫本人的数学兴趣:证明弱大数律——传统上针对独立随机变量序列——可扩展至某些具有统计依赖的序列[8]。  

为论证此点,马尔可夫出人意料地转向文学:将普希金诗体小说《叶甫盖尼·奥涅金》前 76 节编码为 20 000 字的元音-辅音二值序列,构造出元素间显式依赖的两状态过程。他由此 effectively 引入了两状态马尔可夫链,并证明即便存在相邻元辅音的序列字母依赖,大数律依然成立[9]。  

1913 年的论文标志着马尔可夫链作为数学对象的诞生,尽管该术语数年后才出现(详见历史综述[10])。此举不仅挑战了独立性假设,也开启了“写作数学化”——让统计推理直接触碰语言形式[11]。  

语言具有双重性:一方面受声道、认知架构与交际规范的结构性约束;另一方面受社会、历史与个体偶然性塑造的随机变异。无论马尔可夫是否明确论述此二元性,其方法已清晰预示;它为大数律在具有字母依赖的自然语言中成立提供了统计证据,例如因人类发音限制,辅音后接元音(反之亦然)的概率升高。  

马尔可夫还将研究扩展至谢尔盖·T·阿克萨科夫的一部短篇小说,将其编码为多达 10 万字的元辅音交替序列,以在更同质散文样本中验证依赖关系。然而,这种直接应用并未立即在文学分析中延续[12]。马尔可夫生前,文本分析的唯一显著延续是基于词频统计构建“语言光谱”——用定量框架解决作者归属问题的开创尝试[13]。  

20 世纪中叶,克劳德·香农在迥异背景下借鉴马尔可夫思想,提出通信理论[14]。他将文本建模为随机信源,可数学推导熵、冗余与信道容量等统计属性。但香农目的并非分析文学,而是研究合成生成[15]。他基于递增阶数的条件概率构造伪英语句子,并非作为文学,而是展示仅靠统计结构即可营造“意义”幻象。这些实验呼应马尔可夫原初手势,却将焦点从分析转向生成[16]。  

文体计量学——对文学风格的量化分析——主要沿独立轨迹发展,聚焦词汇、句法与统计特征,用于作者归属与体裁分类[17]。例外之一是文献[18]提出的作者归属方法,仅基于字母马尔可夫链(即字母二元组),预示了对亚词汇结构的后续探索。近年研究持续挖掘文学文本的音系与节奏维度,常借助信号处理、信息论与计算语言学技术[19]。例如,用机器学习方法比较普希金与同代诗人风格特征[20],以及对黄金时代诗人文本进行信息熵比较分析[21]。  

除[18]等少数发展[22]外,源自[9]的直接影响并未形成持续的文学文本分析传统。然而留下的更深洞见是:文本可视为符号时间序列,其数学结构可被分析,无论马尔可夫记忆假设是否严格成立[15]。文献[22]指出,马尔可夫链在语言学研究中常被批评且少有采用,但也建议可有意重访,例如用于文本切分或跨语言同文本比较。  

在此背景之下,本研究重访马尔可夫原初手势,并非作为历史轶事,而是方法论契机:用极简概率模型与符号编码审视文学杰作的结构性动态,揭示潜在元辅音(V/C)骨架。我们借助现代计算统计与数据科学,重审完整《叶甫盖尼·奥涅金》及其一部意大利译本,考察 V/C 结构如何反映风格倾向,并展示马尔可夫百年洞见如何在当代分析框架下焕发新生。  

### 《叶甫盖尼·奥涅金》  

《叶甫盖尼·奥涅金》不仅是文学杰作,更是现代俄语文学的奠基之作,影响数代俄国诗人与作家,至今仍是文化与语言地标。诗作写于 1823–1831 年,共八章,每章 46–60 节,总计 421 节。  

其极简叙事追踪同名主人公——一位继承庄园后迁居乡间的年轻贵族——的情感轨迹(第 1 章)。在那里,他与诗人弗拉基米尔·连斯基结为好友,并遇见内向少女塔季扬娜·拉林娜(第 2–3 章),后者迅速坠入爱河。奥涅金断然拒绝她(第 4 章)。随后,他轻佻地挑逗奥尔加(塔季扬娜之妹、连斯基未婚妻),引发第 5 章事件,并在第 6 章决斗中致连斯基于死地。  

多年漂泊后,奥涅金意外重逢已脱胎换骨的塔季扬娜(第 7 章)。她从乡间羞涩少女成长为圣彼得堡沙龙名媛,婚姻出于责任而非激情。关键场景是她独自探访奥涅金寓所,通过书籍与物品深入其内心世界(亦在第 7 章)。奥涅金被其沉稳与存在深深打动,坠入爱河并于第 8 章表白。尽管塔季扬娜爱意未减,仍镇定拒绝,留下普希金故意未完的叙事悬置。诗作的情感弧线展开于社会规范结构之中,却不断被偶然与内在转变所扰动[23]。  

诗作的一大特色在于形式创新。普希金独创“奥涅金诗节”:14 行四步抑扬格,固定押韵方案 AbAbCCddEffEgg,使各行音节长度几近一致。然而在严格格律约束下,普希金展现出非凡的表意幅度:诗节内即可见语调、语域与措辞的微妙转换,并通过“弱音替换”等手法在保持抑扬脉动的同时瞬间打破节律期待[25]。  

普希金的语言多样性惊人:俄文原作文本呈现高度异质的语域,融合口语习语、诗体古词、新造词,以及教会、军事、官僚与民间行话,兼收英、法、意、德外来借词。这种语言杂糅强化了诗作的语调与社会活力,丰富了风格质地与节奏复杂度。  

诗作的表达可变性部分源于节律与格律的微妙互动。格律恒定——每行四音步抑扬格——而重音词汇的位置与类型多变。正如俄诗理论及托马舍夫斯基所言:节律不仅来自格律网格,更来自每行具体重音模式的实现:格律是抽象方案,节律是实际声音形式——每行个别重音的具体排列[24]。这些所谓节律元素(通常是行末重读词或短语)可分为阳性(末音节重读)或阴性(倒数第二音节重读),其交替贡献于更深层的韵律纹理。  

为配合俄文原作分析,我们选用 Giuseppe Ghini 的近期意大利译本[25]。尽管语言并非我们关注核心,Ghini 版以形式忠实与表达细腻著称:复现普希金诗节形式,却故意舍弃原押韵方案,以保留俄文节奏韵律与语调复杂度。其采用无韵九音节诗行(novenari sciolti),维持韵律连贯结构,兼顾风格灵活与韵律平衡。  

本研究假设,通常需通过词汇或句法模式捕捉的风格与结构信号,亦可从最基本的元辅音交替中浮现。我们将文本建模为符号时间序列(即按位置索引的元辅音类别观测序列),以检验此假设。

相似文章

预测阅读时间的探针研究

arXiv cs.CL

研究者通过探针语言模型表征,在五种语言中预测人类阅读时间,发现早期层在早期眼动指标上优于惊讶度,而惊讶度在晚期指标上仍占上风。