迈向人类级别的书籍写作能力

arXiv cs.AI 2026/05/19 04:00 论文

long-context creative-writing fine-tuning planning book-generation language-models dataset

摘要

本文介绍了一个数据集和训练框架，将人类创作的小说转换为多分辨率规划支架，使长上下文语言模型能够生成具有更类似人类散文和叙事动力的书籍规模小说。

arXiv:2605.17064v1 公告类型：新摘要：针对指令遵循和智能体任务优化的大型语言模型仍然与高质量创意写作的要求不一致。小说经常依赖于经过助手调优的模型明确训练要避免的行为，特别是欺骗、道德模糊和不可靠叙述。因此，生成的故事往往在结构上正确，但风格上过于通用、解释性过强，或缺乏人类文学行为的坚实基础。我们提出了一个用于书籍规模创意写作的数据集构建和训练框架，将监督微调重新定义为基于人类创作小说的提示到书籍生成任务。从公有领域小说出发，我们通过将每本书从高层次前提逐渐细化到章节和场景结构，推导出一个多分辨率规划支架。然后在训练过程中反转这个层次结构：模型学习将一个提示扩展为越来越详细的计划，最后扩展到原始的人类创作书籍文本。这种表述保留了人类散文作为最终监督目标，同时使用中间摘要使书籍规模的生成变得可学习。我们在这些提示到书籍轨迹上训练了一个长上下文语言模型，并研究这一目标是否使生成从助手风格的散文转向人类文学创作。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:38

# 迈向人类水平的书籍写作能力
来源：https://arxiv.org/html/2605.17064
###### 摘要

针对指令遵循和智能体任务优化的大型语言模型，仍然难以满足高质量创意写作的要求。小说常常依赖于经过助手调优的模型被明确训练要避免的行为，尤其是欺骗、道德模糊性和不可靠的叙述。因此，生成的故事虽然在结构上看似正确，但风格上往往显得千篇一律、过于解释性，或者缺乏对人类文学行为的充分体现。我们提出了一种用于书籍规模创意写作的数据集构建和训练框架，该框架将监督微调重新定义为一项基于人类创作小说的“提示到书籍”的生成任务。从公有领域小说出发，我们通过逐步细化的方式对每本书进行摘要，从高层次的前提到章节和场景级别的结构，从而导出一个多分辨率规划脚手架。然后在训练过程中反转这一层级结构：模型学习将提示扩展为越来越详细的计划，最终生成原始的人类创作书籍文本。这种表述将人类散文作为最终的监督目标，同时使用中间摘要使书籍规模的生成变得可学习。我们在此类“提示到书籍”的轨迹上训练了一个长上下文语言模型，并研究了这一目标是否能使生成从助手风格的散文转向人类文学写作。¹¹¹数据集可在 https://huggingface.co/datasets/Pageshift-Entertainment/LongPage 获取。

## 1 引言

近期语言模型能够生成长篇且局部连贯的文本[1 (https://arxiv.org/html/2605.17064#bib.bib1),2 (https://arxiv.org/html/2605.17064#bib.bib2),3 (https://arxiv.org/html/2605.17064#bib.bib3)]，但其输出即使在创意写作环境下也往往仍然明显带有助手风格。由指令调优模型生成的故事常常过度解释角色动机，过于直接地解决冲突，或者默认采用安全且可预测的互动模式。虽然这些模型在推理和任务完成方面非常有效，但在助手对齐过程中鼓励的行为模式与人类小说中存在的分布并不完全匹配。

这种不匹配在书籍规模下尤为明显。小说经常依赖欺骗、模糊性、不可靠叙述以及角色做出违背读者预期的行为。这些行为在助手系统中通常是不受欢迎的，因为模型被优化为有帮助、诚实和直接[4 (https://arxiv.org/html/2605.17064#bib.bib4)]。因此，主要针对助手式风格互动进行训练的模型可能难以复现人类创作书籍中常见的叙事动态和散文特征。

现有关于长上下文生成的工作主要通过改进记忆、检索或规划来处理这一问题[1 (https://arxiv.org/html/2605.17064#bib.bib1),2 (https://arxiv.org/html/2605.17064#bib.bib2),3 (https://arxiv.org/html/2605.17064#bib.bib3),5 (https://arxiv.org/html/2605.17064#bib.bib5)]。这些技术主要旨在维持长程一致性。然而，仅有一致性并不能保证类似人类的创意写作质量。模型可以维持连贯的长程结构，同时仍然产生感觉上合成的、过于助手风格或在风格上不像人类创作小说的散文。

在这项工作中，我们引入了一个基于人类创作小说的数据集构建和训练框架，用于“提示到书籍”的生成。核心思想是将书籍转化为一个规划脚手架，然后在训练过程中反转这一过程。规划脚手架是通过逐步精细的摘要构建的书籍的多阶段表示，从高层次的书籍描述到章节和场景级别的结构[6 (https://arxiv.org/html/2605.17064#bib.bib6),7 (https://arxiv.org/html/2605.17064#bib.bib7),8 (https://arxiv.org/html/2605.17064#bib.bib8),2 (https://arxiv.org/html/2605.17064#bib.bib2)]。从公有领域小说开始，流水线首先将每本书压缩成这种脚手架表示。然后训练模型反转这个过程：给定一个提示，模型将粗略摘要扩展为越来越详细的表示，然后生成原始的书籍文本。

这种表述将创意写作视为一个分阶段扩展问题，而不是单步续写任务[9 (https://arxiv.org/html/2605.17064#bib.bib9),10 (https://arxiv.org/html/2605.17064#bib.bib10),5 (https://arxiv.org/html/2605.17064#bib.bib5)]。规划脚手架为长程生成提供监督，而最终目标仍然是人类创作的书籍本身。因此，目标不仅仅是生成连贯的长文本，而是将模型行为与已出版小说中存在的结构和散文分布对齐。

### 1.1 概述

第2节 (https://arxiv.org/html/2605.17064#S2) 描述了数据集构建流水线，包括书籍预处理、提示生成以及从每本书的逐步精细摘要中创建规划脚手架。

第3节 (https://arxiv.org/html/2605.17064#S3) 描述了监督微调设置。模型被训练从合成提示生成规划脚手架和原始书籍文本，遵循从粗略到精细的扩展过程。

## 2 数据集

本节描述了用于监督式书籍规模生成的数据集的构建。源书籍提供最终的散文目标，而训练中使用的提示、中间计划和元数据则从书籍本身生成。因此，构建问题与生成问题是相反的：从一本完整的书籍开始，流水线恢复出模型在写书之前应该学习生成的结构化信息。

得到的训练样本包含三个主要组件：一个合成用户提示、一个中间规划脚手架和原始书籍文本。提示指定所请求的书籍，脚手架暴露潜在的叙事结构，书籍文本仍然是最终的人类创作目标。以下小节描述了语料库、标注策略以及用于生成这些表示的层级处理流水线。

### 2.1 语料库构建

源语料库由来自古腾堡计划[11 (https://arxiv.org/html/2605.17064#bib.bib11)]的公有领域书籍组成。最终版本包含大约6000本书籍。

语料库分两个阶段构建。第一阶段包含一个由采集时古腾堡计划全球下载量前300名的书籍组成的300本种子集。第二阶段增加5700本更多的书籍。两个阶段产生相同的最终表示和训练格式。区别在于标注的生成方式。

### 2.2 标注策略

第一阶段使用提示式的 Qwen3-32B 模型[12 (https://arxiv.org/html/2605.17064#bib.bib12)]处理所有300本种子书籍。该模型在整个流水线中作为推理系统使用，生成后续用于训练的中级表示。这些输出还作为蒸馏专门用于流水线中重复低级阶段的速度更快模型的监督信号。

第二阶段用从第一阶段输出训练的蒸馏后的 Qwen3-14B 工具模型[12 (https://arxiv.org/html/2605.17064#bib.bib12)]替换了场景级别和章节级别组件。与 Qwen3-32B 设置不同，蒸馏模型无需推理即可运行，使其运行速度大幅提升。

这种分离是出于计算成本的考虑。大部分处理工作发生在场景和章节级别，因为这些操作需要在每本书中重复多次。相比之下，全局处理阶段每个样本只需调用几次。因此，第二阶段继续使用提示式的 Qwen3-32B 推理模型处理更高级别的抽象和元数据生成步骤，而蒸馏后的 Qwen3-14B 模型处理重复的局部处理。

### 2.3 流水线

流水线逐步将原始书籍文本转换为场景级别、章节级别和书籍级别的表示。每个级别捕捉不同尺度的叙事信息。场景级别处理保存局部事件和叙事功能。章节级别处理将场景连接成更大的发展，并记录信息如何在章节中分布。书籍级别处理将章节表示压缩为全局叙事结构。

一个核心设计选择是，流水线中的摘要始终以要点列表而非散文段落的形式表示。目标不是生成精炼的独立摘要，而是以以后可以聚合和重新组合的形式保存叙事事实。因此，流水线偏向于让模型生成多个短要点，而不是密集的自由形式文本。一个典型要点大约包含10-20个词，绝对上限为45个词。

在场景级别，表示既捕捉内容也捕捉叙事角色。除了局部事件，流水线还记录诸如哪些角色是场景的中心、叙事结构如何组织、焦点是放在动作、阐述、对话还是节奏变化等信息。目标是保留传统摘要中经常丢失的细节。

在章节级别，场景表示被聚合为更大的结构单元。章节表示将单个场景的局部发展连接起来，同时保留章节中更广泛的风格和叙事平衡。

最后，书籍级别阶段将章节表示压缩为叙事的全局表示。然后使用该表示生成元数据和合成提示。由此产生的结构充当中间规划脚手架，使长篇幅叙事的潜在组织变得明确。

因此，数据集构建是从完整的书籍文本到提示和规划结构。在训练期间，方向被反转：模型以合成用户提示为条件，学习在生成最终书籍文本之前生成脚手架。这保留了人类创作的散文作为最终目标，同时仍然为长程规划提供明确的监督。

请参阅图注
图1：该图说明了通过场景级别、章节级别和书籍级别处理阶段将原始书籍文本转换为层级规划脚手架的过程。颜色表示每个组件的处理级别，箭头表示提取表示之间的信息流动。图表还强调了后来的书籍级别和合成提示组件是由多个中间输出构建的，而不是来自单一的线性摘要路径。#### 2.3.1 场景级别处理

##### 场景分割

场景级别处理提供了流水线的第一个结构层。流水线不是将章节视为一个连续的文本块，而是将其划分为更小的叙事单元，以便更精确地分析和总结。这很重要，因为章节通常包含场景、时间、焦点角色、角色分组、对话焦点、视角或叙事目的的变化。

场景分割由这些叙事标准指导，但它们不被用作严格的确定性规则。相反，它们定义了模型在识别场景边界时应考虑的内容。这使得流水线能够处理通过叙事运动而非显式格式暗示过渡的情况。

结果是每个章节的结构化场景分解。每个场景被分配一个简短名称、一个文本跨度、一个叙事焦点和一个叙事视角。这使得在后续阶段更容易处理章节，因为每个场景可以作为独立的叙事单元进行评分、总结和聚合。

##### 场景模式

场景模式既保留了场景在章节内的位置，也保留了后续处理所需的基本叙事信息。每个场景包含一个简短的描述性名称、其文本跨度、主导叙事焦点和叙事视角。叙事焦点标识场景主要通过哪个角色或叙述者呈现，而叙事视角描述如何框定对该视角的访问。

一旦场景边界得到验证，相应的场景文本和词数就会被附加。这使每个场景成为后续评分、总结和章节级别聚合的独立单元。

##### 场景嵌入空间

纯文本摘要对于描述场景中发生的事情很有用，但它并不总是能保存场景的功能属性。一些叙事特征在散文摘要中容易被低估，尤其是当它们扩散而非事件化时。例如，节奏、阐述密度、世界观构建强度或对话量可能塑造阅读体验，即使它们不会自然地作为明确的情节点被陈述。

为了保存这些属性，每个场景被分配一个七维叙事分数向量。这些维度是：动作、对话、世界观构建、阐述、浪漫内容、情色内容和节奏。每个维度从0到100评分，表示该特征在场景中出现的强度。这些分数作为可解释的控制信号，而非神经嵌入：它们使场景所执行的叙事工作类型可见。

这种表示补充了文本场景摘要。摘要捕捉具体事件，而分数向量捕捉更广泛的结构性质。因此，一个场景不仅可以表示为“发生了什么”，还可以表示为它是对话驱动、阐述密集、节奏快、动作导向还是主要用于世界观构建。后续阶段在生成章节摘要以及将场景级别信息聚合到章节级别表示时会使用这些信息。

为了使分数更稳定，种子流水线使用了一种集成风格的程序。同一场景由推理模型多次评分，每个维度的最终值计算为这些生成的平均值。这很有用，因为推理模型在不同运行中可能得出略有不同的分数，因为每次生成在赋值之前可以产生不同的内部推理轨迹。

对这些输出进行平均可以减少单个噪声判断的影响。非常低的值然后被阈值化为零，这进一步抑制了弱或不一致的信号，并为每个场景中的主导叙事特征产生更清晰的表示。

##### 场景摘要

场景摘要不被视为通用文本压缩步骤。如果只要求模型用一般术语总结场景，那么重要的结构信号，如张力、阐述、节奏、对话焦点或世界观构建的变化，可能会被压缩掉或被当作次要细节处理。

相反，每个标注过的场景被转换为一个紧凑的自然语言摘要，由其叙事分数向量引导。分数向量提供了关于场景在章节内功能的额外信号，帮助摘要强调对后续聚合最相关的方面。

生成的摘要是简洁的要点式描述。它们保存了足够的局部信息以支持章节级别处理，同时避免不必要地展开。

迈向人类级别的书籍写作能力

相似文章

CoAuthorAI：面向科学书籍写作的人类参与系统

利用人工反馈进行图书摘要总结

PlanningBench: 生成可扩展且可验证的规划数据，用于评估和训练大型语言模型

@emollick: 关于AI写作的风格特征（如破折号等）已经有很多讨论，但本文关注的是AI叙事…

WRIT：面向多轮用户代理的写读密集型轨迹合成

提交意见反馈