可控叙事渲染以增强辅助写作
摘要
本论文介绍了Loom,一种基于叙事学中故事/话语区分的三层流水线的辅助写作框架,用于控制叙事意图和渲染密度,与基线相比,实现了事实完整性和描述强度的提升。
arXiv:2607.00009v1 Announce Type: new
摘要:尽管大型语言模型(LLMs)在基础写作辅助方面表现出卓越的能力,但它们在创意写作中的实用性受到持续的二元失败的根本阻碍。该问题表现为在安全的表面编辑(称为修正性润色)与破坏性的、不受控的情节扩展之间振荡。这一困境定义了叙事保真度与描述强度之间的关键权衡。我们提出了Loom,一种基于叙事学中故事与话语区分的辅助写作框架。Loom采用三层流水线,通过实现以意图为中心的符号学思维链,对叙事意图和渲染密度进行精确控制。该架构将感知材料的生成与句法插入分离,确保增强不会违反原始事件结构。我们的综合评估(包括基于LLM的指标和人工评估)表明,Loom成功解决了这一基本矛盾。与最先进的基线相比,Loom获得了最高的整体质量分数,在事实完整性和描述强度方面取得了显著提升。
查看缓存全文
缓存时间: 2026/07/02 05:35
# 可控叙事渲染:增强辅助写作
来源:https://arxiv.org/html/2607.00009
Mingzhe Lu¹,², Yanbing Liu¹,², Jiayue Wu¹,², Jiarui Zhang¹,², Qihao Wang¹,², Yue Hu¹,², Yunpeng Li¹,²,*, Yangyan Xu³
###### 摘要
尽管大型语言模型在基础写作辅助方面表现出色,但其在创意写作中的实用性始终受到一个持续存在的二元失败问题的根本阻碍。这一问题表现为在安全的、表面层面的编辑(即“补救性润色”)与破坏性的、不可控的情节扩展之间摇摆。这一困境定义了叙事保真度与描述强度之间的关键权衡。我们提出 **Loom**,一个基于叙事学中“故事”与“话语”区分而构建的辅助写作框架。Loom 采用三层流水线,通过操作以意图为中心的符号学思维链,实现对叙事意图和渲染密度的精确控制。该架构将感知性内容的生成与句法插入相分离,确保增强发生在不破坏原始事件结构的前提下。我们的综合评估(包括基于LLM的指标和人工评估)表明,Loom 成功解决了这一根本矛盾。Loom 获得了最高的整体质量分数,与当前最先进的基线方法相比,在事实完整性和描述强度方面均有显著提升。
## I. 引言
自大型语言模型出现以来,写作辅助技术发展迅速,在语法纠正、流畅度提升和风格改写方面表现出色 [1](https://arxiv.org/html/2607.00009#bib.bib1), [2](https://arxiv.org/html/2607.00009#bib.bib2)。在通用和专业场景中,这些工具扮演着高级编辑的角色,解决语言摩擦并确保结构合理性。当前最先进的模型通过掌握写作的基础层面(常被描述为“忠实度”和“流畅度”),已基本解决了文本正确性的问题。
尽管具备这些能力,现有范式仍停留在我们所说的 **补救性润色** 模式中。在这种模式下,系统专注于表面层面的编辑、润色形式或改写表达以提升清晰度。然而,创意写作需要一个根本性转变,从严格“修复”文本转向主动塑造读者的体验 [3](https://arxiv.org/html/2607.00009#bib.bib3),我们将这一过程定义为 **叙事渲染**。与补救性润色不同,渲染旨在改变感知纹理 [4](https://arxiv.org/html/2607.00009#bib.bib4)(包括氛围、情绪和感官细节),而不改变底层的叙事事件。
为了说明这种区别,考虑一个叙事事件:“他走进了房间。” **深度渲染** 可能会将空气描述为“陈腐而沉重,仿佛墙壁一直在屏住呼吸”,从而营造紧张感;或者,它可能描述“阳光在地板上聚集成池”,唤起温暖感。两种渲染创造了截然不同的阅读体验,同时严格保留了相同的事实动作。
然而,实现这种特定级别的控制仍然是一项艰巨的挑战。被要求增强文本的通用模型要么默认只进行安全的表面编辑 [5](https://arxiv.org/html/2607.00009#bib.bib5)(即补救性润色),要么在要求表现力时生成不可控的情节扩展,通常会有效地幻觉出新事件 [6](https://arxiv.org/html/2607.00009#bib.bib6)。因此,目前还没有一个计算框架能够在感知层面精确控制增强,而不损害源文本的事实完整性。
这一局限性反映了对两个不同叙事学层面的混淆:**故事**(发生了什么)和 **话语**(如何讲述)。根据结构主义理论 [4](https://arxiv.org/html/2607.00009#bib.bib4),生动的叙事意义不仅来自添加细节,更来自感知信息和阐释立场的结构化协调。因此,有效的辅助需要一个能够解耦这些层面、并在保留事件结构的前提下实现精确风格修改的机制。
我们提出 **Loom**,一个用于叙事渲染的辅助写作框架,能够保留故事事件。受叙事学中故事与话语区分的启发,Loom 采用结构化流水线。该流水线首先通过 **感知配额层** 分配受限的感官材料,然后通过 **意义生成层** 将这些材料转化为与意图一致的表现性功能,最后通过 **叙事渲染层** 进行整合。
总结而言,我们的贡献如下:
- • 我们提出 **Loom**,一个用于可控叙事渲染的结构化辅助写作框架。通过采用三层流水线,Loom 操作了叙事学的符号学思维链,从而实现对 **叙事意图** 和 **渲染密度** 的精确控制。
- • 我们设计了一个基于理论指导的评估协议,根植于叙事学中故事与话语的区分。我们的多维评估标准明确测量了表达强度和对源事件的忠实度,解决了标准指标混淆风格丰富化与情节修改的局限性。
- • 我们进行了全面的评估,包括基于LLM的指标、人工评估和消融实验,证明 Loom 解决了事实完整性与描述强度之间的张力,生成的渲染文本比强大的LLM基线方法更忠实于源事件,且更符合叙事意图。
参见标题图1:Loom 框架概览。该流水线以原始叙事文本、叙事意图和密度约束作为输入。它通过三个阶段运行:感知配额层根据意图分配感官预算;意义生成层通过符号学推理将抽象配额转化为具体的语义原子;叙事渲染层执行微创注入,在保留原始事件结构的同时丰富文本。
## II. 相关工作
**文本丰富与描述性扩展。** 文本丰富已经从句级重构损失 [7](https://arxiv.org/html/2607.00009#bib.bib7), [8](https://arxiv.org/html/2607.00009#bib.bib8) 发展为基于LLM的方法,针对特定的叙事特质,如基于心理学的悬念规划 [9](https://arxiv.org/html/2607.00009#bib.bib9) 和以角色为中心的扩展 [10](https://arxiv.org/html/2607.00009#bib.bib10)。像 RSA-Control [11](https://arxiv.org/html/2607.00009#bib.bib11) 这样的风格框架采用语用推理来调整语气,同时锚定语义。然而,这些表面层面的方法缺乏结构性的故事-话语区分,在寻求更高表达力时,常常导致不可控的扩展,引入新的事实或改变叙事节奏。
**可控与基于规划的生成。** 研究已从条件训练 [12](https://arxiv.org/html/2607.00009#bib.bib12), [13](https://arxiv.org/html/2607.00009#bib.bib13) 发展为分层规划,Plan-and-Write [8](https://arxiv.org/html/2607.00009#bib.bib8) 将情节大纲与实际生成分离。像 CritiCS [14](https://arxiv.org/html/2607.00009#bib.bib14) 这样的多智能体框架使用集体批评者进行精炼,而 DOC [15](https://arxiv.org/html/2607.00009#bib.bib15) 应用详细的大纲控制。智能体工作流采用自我纠正机制 [16](https://arxiv.org/html/2607.00009#bib.bib16)。尽管取得了这些进展,现有的控制机制管理的是全局属性(体裁、情感)或事件序列,缺乏在特定跨度内调节 **感知密度** 的细粒度。
## III. 理论基础
引人入胜的叙事力量来源于一个叙事机制,该机制从感知到阐释再到话语逐步推进。经典的结构主义理论,特别是热奈特关于聚焦的研究,认为叙事意义来源于三个不同层面的协调:感知信息(展示了什么)、阐释立场(如何处理)和话语渲染(如何讲述)。认知叙事学进一步指出,读者体验故事并非通过原始描述,而是通过心理上被选择性前景化的感知线索。
因此,文本的生动性并非来自细节的累积,而是来自一个结构化过程:构建感知线索,赋予它们主题意义,然后将它们塑造为表面表达。
反映这一传递过程,Loom 操作了这些阶段:通过 **感知配额层** 构建注意力,通过 **意义生成层** 赋予意义,通过 **叙事渲染层** 增强表达。这种同构性确保了我们的流水线不仅仅是一种生成启发式方法,而是对叙事技艺的严谨操作化。
## IV. 方法
我们介绍 Loom,一个用于可控叙事渲染的结构化智能体流水线。如图1所示,它处理原始文本 \(T\)、意图 \(I\)、预算 \(\Omega_{\text{total}}\) 和限制 \(\Omega_{\text{max}}\),依次通过三个对齐的层:感知配额层、意义生成层和叙事渲染层,每一层都采用角色扮演式的符号学思维链。
### IV-A 感知配额层:有界分配
第一阶段的功能是作为精算预算师。其目标是决定在何处注入细节以及注入多少细节,而尚未生成具体内容。这种数量与内容的分离对于可控性至关重要。
设 \(V = \{v_{1}, v_{2}, \dots, v_{n}\}\) 是从输入文本 \(T\) 中提取的事件承载动词集合。我们定义一个包含七个维度的感官空间 \(\mathcal{S}\),对应表 I 中的分类:视觉、听觉、嗅觉、味觉、触觉、内感觉和动觉。
对于每个动词 \(v_{i} \in V\),模型必须分配一个配额向量 \(\mathbf{q}_{i} \in \mathbb{N}^{7}\),其中每个元素 \(q_{i,j}\) 表示分配给动词 \(v_{i}\) 在感官维度 \(j\) 上的感官原子数量。分配由意图驱动的预算函数 \(F_{\text{budget}}\) 决定:
\[\mathbf{Q} = F_{\text{budget}}(V, I, \Omega_{\text{total}}, \Omega_{\text{max}}), \tag{1}\]
受制于两个关键约束:
\[\text{s.t.} \quad \sum_{i=1}^{n} \|\mathbf{q}_{i}\|_{1} = \Omega_{\text{total}}, \quad \|\mathbf{q}_{i}\|_{1} \leq \Omega_{\text{max}}, \forall i \in \{1, \dots, n\} \tag{2}\]
其中 \(\|\mathbf{q}_{i}\|_{1}\) 表示分配给动词 \(v_{i}\) 的感官总数。第一个约束确保系统精确用完全局预算,既不浪费也不超支。第二个约束防止局部膨胀,确保没有单个事件被过度描述压垮。对于叙事意图 \(I\) 核心的动词,在这些界限内获得更高分配,而边缘动词则获得零配额。
### IV-B 意义生成层:符号学转换
第二阶段的功能是作为叙事符号学家。它将前一层抽象的数值配额转化为具体的、与意图一致的语义符号。该层基于原子生成的原理运行,产生最小的概念单元(通常是 1-3 个 token 的短语,代表具体的感官印象),而不是完整的句子。
对于与动词 \(v_{i}\) 和感官维度 \(s_{j}\) 相关的每个非零分配 \(q_{i,j} > 0\),模型执行语义映射 \(\Phi\)。这个过程由一个符号学思维链驱动,该思维链明确推理物理感觉如何体现抽象意图 \(I\):
\[(\mathcal{A}_{i,j}, \mathcal{J}_{i,j}) = \Phi(v_{i}, s_{j}, q_{i,j}, I). \tag{3}\]
这里,\(\mathcal{A}_{i,j} = \{a_{1}, \dots, a_{k}\}\) 是一组语义原子(例如,“陈腐的空气”或“遥远的撞击声”),作为感知载体。\(\mathcal{J}_{i,j}\) 代表 **符号学推理轨迹**。它远非仅仅是一个理由,\(\mathcal{J}_{i,j}\) 封装了赋予物理原子特定叙事意义的核心解释逻辑。它充当具体载体与抽象意图之间的认知桥梁。
对于后续的渲染阶段,我们将作用于动词 \(v_{i}\) 的所有生成的原子聚合到一个统一集合 \(\mathcal{A}_{i} = \bigcup_{j} \mathcal{A}_{i,j}\) 中,确保渲染层接收到每个事件的整合丰富计划。
表 I:感官模态及其代表性语义原子。
### IV-C 叙事渲染层:微创注入
最后阶段执行语义原子到原始文本的微创整合。与常常重塑整个段落的通用生成式重写不同,该层应用跨度约束注入运算符。
设 \(\text{span}(v_{i})\) 表示原始文本 \(T\) 中动词 \(v_{i}\) 的起始和结束索引。注入按照 \(V\) 中动词的线性顺序顺序执行,以保持时间连贯性。渲染函数 \(\Psi\) 取动词周围的局部上下文 \(C(v_{i})\) 和生成的语义原子 \(\mathcal{A}_{i}\),生成精炼后的局部片段 \(T'_{i}\):
\[T'_{i} = \Psi(C(v_{i}), \mathcal{A}_{i}, \text{Intent}(I)). \tag{4}\]
运算符 \(\Psi\) 受严格的“展示,而非告知”指令以及禁止添加新因果动作的负面约束限制。系统识别动词 \(v_{i}\) 周围的精确叙事间隙,并将语义原子编织到描述中。这种局部化方法确保修改在结构上从属于原始事件骨架。
这种增量注入过程的逻辑在算法1中形式化。
**算法1 微创叙事注入**
输入:\(T\)(源文本), \(I\)(意图), \(\mathbb{M} = \{(v_{i}, \mathcal{A}_{i})\}_{i=1}^{|V|}\)(丰富计划)
输出:\(T'\)(渲染后文本)
1: \(T' \leftarrow T\)
2: **对于** 每个 \((v_{i}, \mathcal{A}_{i}) \in \mathbb{M}\) **执行**
3: **如果** \(\mathcal{A}_{i} \neq \emptyset\) **则**
4: \(\kappa \leftarrow C(v_{i}, T)\) // 提取局部上下文窗口
5: \(\tau \leftarrow \Psi(\kappa, \mathcal{A}_{i}, I)\) // 通过式 (4) 生成渲染
6: \(\sigma \leftarrow \text{span}(v_{i}, T')\) // 定位插入坐标
7: \(T' \leftarrow \text{Update}(T', \sigma, \tau)\) // 就地注入
8: **结束如果**
9: **结束循环**
10: **返回** \(T'\)
最终输出 \(T'\) 是这些局部精炼片段的拼接,保留了原始故事 \(T\) 的时间顺序和因果序列,同时显著增强了其感知深度和氛围密度。
## V. 实验
评估叙事渲染具有挑战性,因为它需要测量风格强度而不惩罚情节保留——这是传统指标忽略的一个细微差别。据我们所知,本工作首次正式定义并评估...相似文章
@emollick: 关于AI写作的风格特征(如破折号等)已经有很多讨论,但本文关注的是AI叙事…
本文介绍了StoryScope,一个分析语篇层面叙事特征以区分AI生成小说和人类创作故事的流程。它达到了很高的准确率,并揭示了不同大语言模型(如Claude、GPT和Gemini)独特的叙事指纹。
迈向人类级别的书籍写作能力
本文介绍了一个数据集和训练框架,将人类创作的小说转换为多分辨率规划支架,使长上下文语言模型能够生成具有更类似人类散文和叙事动力的书籍规模小说。
Loreline – 创作互动小说的工具
Loreline提供用于创作互动小说、视频游戏对话和分支叙事的开源工具,并内建本地化支持。
叙事景观:映射大语言模型中的叙事倾向
本文介绍了一种名为“叙事景观”的定量框架和可视化工具,用于映射并比较前沿大语言模型的叙事倾向及其稳定性。
神经符号交互式叙事中的世界状态转换
本文探讨如何利用大语言模型(LLM)在基于规则的交互式叙事系统中预测状态变化,旨在提升叙事连贯性与玩家表现力。使用 Llama 3 70B 和 Gemini 1.5 Flash 进行的实验表明,世界状态转换既能维持一致性,又能鼓励玩家进行创造性输入。