故事操作符:在嵌入空间中原著 $\to$ 续集变换的分解

arXiv cs.CL 论文

摘要

本文将书籍视为句子嵌入空间中的点,并将从原著到续集的变换分解为可解释的轴,揭示续集类型(公式化、集中型、复合型)的分类法。该方法应用于十三组作者对,并通过《汤姆·索亚历险记》到《哈克贝利·费恩历险记》的作者意图验证了该几何结构。

arXiv:2606.25379v1 Announce Type: new 摘要:我将一本书视为句子嵌入空间中的一个点,将文学变换视为点的运算。给定一部原著及其续集,我探究从前者变为后者在几何上需要什么。利用从预先计算的 PG19 语料索引中提取的 all-mpnet-base-v2 段落嵌入,我形成位移 $d=\bar{x}_{\rm seq}-\bar{x}_{\rm orig}$,并沿着通过 PCA 从两本书自身的段落中获取的内容基对其进行贪婪分解。每个分量都是一个可解释的轴,其两极由真实段落锚定。在 Project Gutenberg 的十三个经过验证的作者对中,这种分解揭示了续集的小型分类法:公式化(微小、低秩变化:道尔的福尔摩斯文集,$\|d\|=0.12$)、集中型(一个主导轴:奥尔科特的《小妇人》$\to$《小男子汉》,75% 集中在单一移动上)以及复合型(许多小轴:吐温、巴勒斯的火星系列、内斯比特)。对于经典案例《汤姆·索亚历险记》$\to$《哈克贝利·费恩历险记》,恢复的主导轴是结构性的——庇护性家庭生活的崩溃转变为流浪冒险之路——而非著名的表面主题如方言语音或奴隶制,后者出现在更靠后的、较小的轴上;并且变换路径穿越冒险旅程空间,而非稀释为一般现实主义。我通过吐温记载的作者意图(他 1875–76 年间写给豪厄尔斯的信件)证实了恢复的几何结构,他在信中年就预见了第一人称流浪冒险转变,并通过明确的表示注意事项量化了他的既定意图涵盖了多少实现的变换。所有计算可从发布的脚本和数据中重现。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:11

# 在嵌入空间中原作到续作的变换分解
来源:https://arxiv.org/html/2606.25379
(2026年6月)

###### 摘要

我将一本书视作句子嵌入空间中的一个点,将文学变换视为对点的操作。给定某部原创小说及其续作,我从几何角度探究需如何将前者转变为后者。利用从 PG19 语料库预计算索引中提取的 all-mpnet-base-v2 段落嵌入,我构成位移 \(d = \bar{x}_{\text{seq}} - \bar{x}_{\text{orig}}\),并沿通过对两本书各自段落进行 PCA 得到的内容基进行贪心分解。每个分量都是一个可解释的轴,其两极由真实段落锚定。在来自古腾堡计划的十三个已认证作者对中,该分解揭示了续作的一个小型分类法:*公式化*(微小、低秩变化:道尔的福尔摩斯集,\(\lVert d \rVert = 0.12\))、*集中型*(一个主占轴:奥尔科特的《小妇人》→《小男子汉》,75% 聚集于单一移动),以及*复合型*(许多小轴:吐温、伯勒斯的巴苏姆系列、内斯比特)。对于经典案例《汤姆·索亚历险记》→《哈克贝利·费恩历险记》,恢复的主轴是结构性的——从庇护性的家庭生活崩塌为流浪汉冒险——而非常被首先提及的表层主题(方言口语或奴隶制),后者出现在更靠后、更细微的轴上;且该变换途经冒险旅程空间,而非向一般现实主义稀释。我将恢复的几何结构与吐温有文献记载的作者意图(他 1875–76 年写给豪厄尔斯的多封信件)进行对照,这些信件提前多年指明了第一人称流浪汉叙事这一转变,并且我量化了其所述意图涵盖了多少已实现的变换(附有明确的表征局限说明)。所有计算可通过发布的脚本和数据重现。

## 1 引言

句子嵌入模型将文本映射到 \(\mathbb{R}^{768}\) 中的一个向量,其中接近程度编码语义亲缘关系。嵌入整个语料库得到一个点云,其中《金银岛》与《诱拐》彼此相邻,达尔文靠近哲学家们。一旦书籍成为点,书籍的变换就变成了点的操作。我将这种操作的一个小型命名代数称为*故事算子*。该规范代数包含 13 个原始算子[4]:6 个*点动词*(朝向、沿、缩放、反射、投影、混合)、3 个*集合动词*(聚集、散开、携带)和 4 个*守卫*(where、clamp、mask、verify)。该集合据称在仿射闭包分析下是充分的:\(\mathbb{R}^{d}\) 中的每个仿射自同态通过 SVD 分解为旋转、反射、轴缩放和平移,这些均可表示为这些动词上的程序,随后归一化至 \(S^{d-1}\)[4]。本文研究最直接与有记载的作者行为相关的算子:将*原*作小说转变为其*续*作的变换。正如我将展示的,原作→续作位移的内容轴分解具有贪心 *along* 链的结构——along 是沿命名语义方向进行平移的规范动词。

我的贡献有三点:(i) 我提供了一种可重现的方法,将原作→续作位移*分解*为从两本书自身文本中恢复的、由可解释内容轴组成的短序列,而非强加一组固定的外部维度。(ii) 我将其应用于十三个已认证的古腾堡作者对,并识别出一个由比较度量支撑的分类法——公式化、集中型、复合型。(iii) 对于《汤姆·索亚历险记》→《哈克贝利·费恩历险记》,我将恢复的几何结构与原始作者意图联系起来,并量化其一致性,同时诚实地说明该测量能声称和不能声称什么。

## 2 相关工作

Sentence-BERT[1] 和 mpnet 模型家族[2] 生成了我使用的固定长度文本嵌入;我采用 all-mpnet-base-v2。PG19[3] 提供了一个大规模、公开的、1919 年之前的书籍语料库,具有清晰的来源。先前的计算叙事工作主要测量*相似性*或对作品进行聚类;我的重点是将*变换分解*为命名的、可组合的算子,并对照文本和(在可用时)作者记录进行验证。更广泛的故事算子程序将这些操作置于叙事语料库上的再生核希尔伯特空间中[4]。

## 3 方法

### 3.1 书籍向量

我使用 PG19 的预计算段落索引(all-mpnet-base-v2,768 维,每个段落一个向量;共 12,830 本独特书籍)。对于一本书,我去除样板段落(古腾堡项目头/许可、非常短的片段、插图说明),并将其向量定义为其剩余段落嵌入的 \(L_2\) 归一化均值:\(\bar{x} = \mathcal{N}\!\big(\tfrac{1}{|P|}\sum_{p \in P} e_p\big)\)。段落级池化避免了 384 token 截断(否则会丢弃大部分小说内容)。

### 3.2 内容轴分解

对于(原作, 续作)对,设书向量为 \(T\) 和 \(H\),令 \(d = H - T\) 且 \(\mathrm{base} = \langle T, H \rangle\)。我通过对两本书中心化段落嵌入的并集进行 PCA 来构建一个*内容基* \(\{u_j\}\),因此这些轴是*这两个文本实际变化*的方向。然后我贪心地组成 \(d\):按 \(|\langle d, u_j \rangle|\) 对轴排序,将每个轴符号对齐朝向 \(H\),并从 \(w_0 = T\) 开始累加 \(w_k = w_{k-1} + \langle d, u_{(k)} \rangle u_{(k)}\)。每一步后我记录累积的*角间距闭合度*

\[
g_k = \frac{\cos(w_k, H) - \mathrm{base}}{1 - \mathrm{base}},
\tag{1}
\]

并保留边际 \(g_k - g_{k-1}\) 超过 \(1\%\) 的步骤(其余为无效权重)。每个保留的步骤由其轴极值处的真实段落命名(投影到 \(u_{(k)}\) 上的 \(\arg\max\) / \(\arg\min\)),一个来自原作,一个来自续作。

在规范的故事算子词汇中[4],每个保留步骤对应一个 *along* 操作:\(\mathrm{ALONG}(x;\, u, \lambda) = \mathcal{N}(x + \lambda u)\),即沿内容轴 \(u_{(k)}\) 将嵌入对象平移 \(\lambda = \langle d, u_{(k)} \rangle\) 的规范动词,其中 \(\mathcal{N}\) 表示 \(L_2\) 归一化。注意与当前方法的区别:规范动词在每一步后归一化,而这里的贪心分解在环境线性空间中累加,并在每一步评估角度进展 \(g_k\),而非逐步归一化。这赋予了分解一个贪心 *along* 链的*概念*结构,同时在原始球面上测量间距闭合度;在步长较小的情况下两者趋近。贪心顺序(最大 \(|\lambda|\) 优先)在残差分量的恢复之前恢复主要的语义移动。

### 3.3 比较度量

每对报告:\(\cos(T, H)\)(整体相似度);\(\lVert d \rVert\)(变换幅度);*内容天花板* \(g_K\)(内容基闭合的角间距比例);\(n_{\text{eff}}\)(保留步数);*主占份额* \(g_1\);以及基于每轴能量份额 \(\hat{p}_j \propto \langle d, u_j \rangle^2\) 的*参与比* \(1 / \sum_j \hat{p}_j^2\),当单轴承载移动时该值约为 1,移动分散时该值较大。

### 3.4 意图测试(案例研究)

对于《汤姆》→《哈克》,我额外将六个表述清晰的“续作算子”(例如:方言第一人称视角;小镇事件→河流旅程;面对奴隶制)嵌入为短语方向 \(\mathrm{dir} = \mathcal{N}(e_{\text{to}} - e_{\text{from}})\),并测量 \(d\) 落于其张成空间中的比例 \(\lVert B d \rVert / \lVert d \rVert\),其中 \(B\) 是这些方向的标准正交基,并与随机 \(k\) 维子空间基线进行比较。我在 §6 中标注了表征局限。

## 4 数据

我选择了十三对原作→续作,其*两卷*均在索引中存在,具有 \(> 80\) 个非垃圾段落,并且是真正的同作者延续(表 1)。它们涵盖儿童奇幻(卡罗尔、鲍姆、内斯比特)、少年及通俗冒险(吐温、伯勒斯)、侦探(道尔)、历史浪漫(大仲马)、家庭(奥尔科特、蒙哥马利、波特)以及乌托邦(贝拉米)等模式。古腾堡标识符和每本书的段落数量记录在发布的 comparitive.csv 中。

## 5 结果

### 5.1 续作分类法

表 1 和图 1 显示,续作在两个大致独立的轴上有所不同:续作*移动多远*(\(\lVert d \rVert\))以及移动*多集中*(参与比)。

- • **公式化**。道尔的《冒险史》→《福尔摩斯回忆录》是变换最小的对(\(\cos = 0.99\),\(\lVert d \rVert = 0.12\),主占轴仅 14%):侦探模板在两部故事集之间几乎没有变化。大仲马的《三个火枪手》→《二十年后》类似(\(\lVert d \rVert = 0.18\))。
- • **集中型**。奥尔科特的《小妇人》→《小男子汉》将 75% 的移动放在单一轴上(参与比 1.3):从女孩的家庭成长到男孩的学校生活的转变几乎是一个算子。贝拉米的《回顾》→《平等》可比较(59%),乌托邦叙事硬化成了说教性论文。
- • **复合型**。吐温、伯勒斯的《公主》→《火星诸神》以及内斯比特将移动分散在许多小轴上(参与比 4.4–4.7):续作是真正的重新组合,而非单一色调转变。

鲍姆的《奥兹国的伟大巫师》→《奥兹国的仙境奇遇》是*变换最大*的对(\(\lVert d \rVert = 0.43\),天花板 90%),与鲍姆抛弃多萝西、引入全新主角和人物阵容一致。

表 1:横跨十三个古腾堡对的原作→续作分解,按变换幅度排序。\(\cos\):原作-续作余弦;\(\lVert d \rVert\):位移范数;*ceil*:内容天花板(间距闭合度);*stp*:有效步骤;*dom*:主占轴份额;*part*:参与比。所有值已测量。参见标题图 1:比较概况。左:每个续作的累积间距闭合度,按分量算子分段(颜色 = 贪心步骤顺序);短而深的柱为单主占轴续作,长而多的为复合型。右:变换幅度 \(\lVert d \rVert\) 与复合分散度(参与比)的关系,将公式化(左下)与复合型(上)续作分开。

### 5.2 案例研究:《汤姆·索亚历险记》→《哈克贝利·费恩历险记》

吐温对是强复合型的(8 个有效步骤,参与比 4.4,天花板 85%)。四个主要轴(占移动的 74%),每个由真实段落命名,分别为:(1, 32%) *庇护的家庭生活* → *流浪汉骗局*(波莉阿姨为汤姆祈祷 → 骗子“国王”);(2, 20%) *旁观的恶作剧* → *第一人称沉浸于危险*;(3, 12%) *小镇场景* → *河上陌生人的游行*;(4, 10%) *作为奖赏的宝藏* → *道德困境*。因此单最大轴是*结构性的*——保护性的成人框架崩塌为一场骗局之旅——而非通常首先被提及的表层主题(方言口语、奴隶制);后者出现在更靠后、更细的轴上。沿着弯曲路径的邻居,该变换*途经*冒险旅程空间(《诱拐》、《金银岛》出现在 25–50% 标记处),而天真的直接内插仅将汤姆稀释为一般社会现实主义(图 2、3)。

参见标题图 2:《汤姆》→《哈克》。左:实际分解(按内容轴步骤的累积间距闭合度;内容天花板 85%)。右:前向意图测试——六个表述清晰的作者移动占实际位移的 22.8%,而随机 6 维基线为 8.9%(高于随机,中等),附有 §6 中注明的表征局限。参见标题图 3:八个分量算子作为彩色线段,从《汤姆·索亚历险记》(起点)循环到《哈克贝利·费恩历险记》(目标),位于由 \(H - T\) 和路径主弯张成的平面内。虚线为天真的直线混合;图例列出每个算子的边际间距闭合度。

### 5.3 恢复的几何结构与作者意图

恢复的主轴与吐温有文献记载的计划相符。在完成《哈克贝利·费恩历险记》的九年前,克莱门斯于 1875 年 7 月 5 日写信给 W·D·豪厄尔斯,称他在《汤姆·索亚历险记》中停在了少年时期,并打算另行“让一个十二岁的男孩(以第一人称)贯穿他的一生……但不是汤姆·索亚”[5]——提前指明了第一人称流浪汉叙事这一转变(轴 1–2),并以流浪汉小说《吉尔·布拉斯》为模型。1876 年 8 月 9 日的信件标明了续作的开始(“这是哈克·费恩的自传……我只能说还算喜欢……可能被迫搁置或烧掉手稿”);出版时的《通告》和《说明》分别断言了传统情节的缺失(与“漂流的河流时间”轴一致)以及经过深思熟虑和研究过的方言。吐温本人后来对该书的评价——约 1895 年的笔记描述“一颗健全的心和一颗扭曲的良知发生碰撞,良知遭受失败”[6]——指出了道德困境轴(轴 4)。

量化来看,将六个已陈述的意图嵌入为短语方向,它们张成实现位移的 \(22.8\%\),而随机 6 维基线为 \(8.9\%\)(第 95 百分位 \(12.9\%\)):高于随机但部分覆盖。主占的结构性轴(庇护→骗局)是*最不*被任何已陈述意图匹配的——这表明续作最深层的移动与其说是一个清单项目,不如说是在诚实地沿着河流跟随哈克时产生的涌现结果。

### 5.4 其他值得注意的对

除了极端案例,几个对展示了中间状态。卡罗尔的《爱丽丝》→《镜中世界》具有最低的内容天花板(52%):其大部分变化位于两本书共享内容轴之外,与续作(用另一套自洽的梦境逻辑替换一套,而非连续变换同一个世界)一致。蒙哥马利的《绿山墙的安妮》→《艾凡利的安妮》最接近二维(参与比 2.0):大致沿一对轴的稳定成熟过程。吉卜林的两部《丛林之书》、伯勒斯的两个泰山小说和波特的《波莉安娜》续作位于中间——中等幅度、中等分散度——这是保持世界但推进主角的延续概况。这些模式在不同无关作者间的重复表明,该分类法反映了续作制作的方式,而非单个作品的特性。

## 6 讨论与局限

两种差异类型。幅度和集中度大致正交:续作可以是大幅但单轴的转变(鲍姆、奥尔科特),也可以是微小但分散的重新加权(道尔)。该分类法是描述性的,但它清晰地区分了模板延续与真正重新组合。

**局限性**。(i) *意图测试中的表征不匹配*:意图算子被实现为短语嵌入差异,而实际变换涉及全书段落。嵌入模型可能无法捕捉到像“叙事声音”或“社会结构”这样的抽象概念,并且将短语方向视为与内容轴一致的假设需要检验(当前的贪心链对意图方向并未优先选取)。(ii) *在古腾堡选集中,续作是边界清洗的*:我筛选了通过相同校订者、相同格式、连续古腾堡标识符或明确标题确认的序列,但这排除了更模糊的关联。(iii) *作者意图仅限于一个案例*:可用的信件集因作者而异,我未能为其他对匹配系统的意图声明。(iv) *段落级均值忽略了书籍内的章节结构*:叙事弧线被抹平,尽管在分解中每一步的命名段落保留了局部性。对于需要章节关系图的叙事任务,应使用替代表示并对其建模。(v) *关于范数*:\(\lVert d \rVert\) 测量平均嵌入的差异,但不同的语义移动可能具有相同的平均位移:范数捕捉幅度而非类型。实验表明,通过内容基的贪心步骤有效地恢复了平移的语义结构。

尽管如此,对于《汤姆·索亚历险记》→《哈克贝利·费恩历险记》,恢复的几何结构与吐温自己的作者评论之间的对齐是有启发性的——不仅仅是分量的定性匹配,还有它们未能轻松表达主要结构性轴的方式。表征局限并未削弱分解的事实基础,但应适当地限制关于作者意图解释的声称。

相似文章

迈向人类级别的书籍写作能力

arXiv cs.AI

本文介绍了一个数据集和训练框架,将人类创作的小说转换为多分辨率规划支架,使长上下文语言模型能够生成具有更类似人类散文和叙事动力的书籍规模小说。

扩展单义性:从Claude 3 Sonnet中提取可解释特征

arXiv cs.AI

本文展示稀疏自编码器能够从生产级语言模型Claude 3 Sonnet中提取可解释特征,解决了字典学习方法在扩展性方面的担忧。这些特征具有多语言、多模态特性,并涵盖欺骗、谄媚等安全相关概念,且对模型输出具有因果影响。

Transformer线性表示高度结构化的世界模型

arXiv cs.LG

本文证明,在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型,并识别出一个稀疏、单语义的电路,负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。