NarrativeWorldBench:一个前沿饱和的基准测试和用于长程协作创作的音频剧的潜在世界模型

arXiv cs.CL 论文

摘要

本文介绍了NarrativeWorldBench,一个用于评估音频剧中长程叙事一致性的基准测试,以及N-VSSM,一个潜在状态空间模型,它在多个时间跨度和语言上优于前沿大型语言模型。

arXiv:2606.17391v1 公告类型:新 摘要:长序列化音频剧,其剧情线跨越200到800集,是一种重要的创意媒介,也是前沿大型语言模型(LLM)无法应对的场景。我们使用一组统一的叙事结构指标,对21个模型进行了基准测试,涵盖了经典模型、微调模型、开放前沿模型、封闭前沿模型以及推理层级。所有封闭前沿系统在情节节拍F1上饱和于[0.78, 0.81]区间,并在时间跨度h=200时下降了约0.20 F1。我们引入了NarrativeWorldBench,这是一个开放的基准测试,包含九项叙事结构指标,在时间跨度h ∈ {10, 20, 50, 100, 200}上进行评估,并在四种印度语言(印地语、泰米尔语、泰卢固语、马拉地语)上进行跨语言评估。我们提出了N-VSSM,一种叙事变分状态空间模型,它通过基于Mamba-2的主干网络、事件条件后验以及8B解码器,在超过200集的过程中维护一个结构化的256维潜在世界状态。N-VSSM在所有时间跨度上保持情节节拍F1 ≥ 0.84,同时计算成本比封闭前沿模型低4倍。一个学习到的文化迁移函数将跨语言保真度提升了+0.20到+0.23 Likert分数。在一项受试者内写作研究(n = 12名专业作者,240次试验)中,N-VSSM在长期弧一致性上以71%的比率优于Claude Opus 4.5,并且在可控性上评分高出+1.3 Likert分数。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:40

# 饱和边界基准与长程协同创作音频剧的隐式世界模型
来源:https://arxiv.org/html/2606.17391
Logan Mann¹ Abdur Rahman² Mohammad Saifullah² Taaha Kazi² Vasu Sharma² ¹加州大学圣塔芭芭拉分校 ²Pocket FM

###### 摘要

长篇连载音频剧(剧情线常长达200至800集)是一种重要的创意媒介,也是前沿大语言模型(LLM)表现欠佳的场景。我们对21个模型(涵盖经典、微调、开放前沿、封闭前沿和推理层级)在一组统一的结构性叙事指标上进行了基准测试。所有封闭前沿系统在情节节拍F1上饱和于区间[0.78,0.81],并在视界h=200处下降约-0.20 F1。我们推出了NarrativeWorldBench,这是一个开放基准,包含九项叙事结构指标,在五个视界h∈{10,20,50,100,200}上评估,并在四种印度语言(印地语、泰米尔语、泰卢固语、马拉地语)上进行跨语言评估。我们推出了N-VSSM,一种叙事变分状态空间模型,通过Mamba-2骨干网络、事件条件后验和8B解码器,在超过200集的情况下维持结构化的256维隐式世界状态。N-VSSM在所有视界上保持情节节拍F1≥0.84,计算量仅为封闭前沿区间的四分之一。学习得到的文化迁移函数将跨语言保真度提升了+0.20至+0.23李克特分。在一项被试内作者研究(n=12名专业作者,240次试验)中,N-VSSM在长篇连贯性上以71%的偏好率优于Claude Opus 4.5,在可控性上评分高出+1.3李克特分。

## 1 引言

音频剧、虚构播客和沉浸式音频系列是一种快速增长的创意形式。单个剧情线通常跨越200到800集。全球产量现已超过6万个活跃系列,估计每月有20亿听众。这种媒介的核心计算问题不是单次生成质量,而是视界:系统必须在一个人类合作者引导下,保持故事在数百集内连贯。

现有的长上下文基准并未衡量这一点。LongBench[2]、RULER[8]、NoCha[11]、FActScore[12]和L-Eval[1]评估检索、事实回忆和摘要。它们都没有衡量协同创作延续下的结构叙事一致性,即模型必须扩展一个作者正在积极塑造的进行中剧情线。

我们做出三项贡献。

1.  **NarrativeWorldBench**:一个包含九项叙事结构指标的基准,覆盖五个视界,最远至h=200,提供英语及四种印度语言版本。
2.  **前沿审计**:对21个LM的审计,揭示了区间[0.78,0.81]内的饱和上限和h=200处均匀的-0.20 F1下降。
3.  **N-VSSM与学习得到的文化迁移函数**:一个跨越该上限的隐式世界模型,以及一个恢复跨语言保真度的表示变换。

## 2 相关工作

#### 长上下文基准。
LongBench[2]、RULER[8]、L-Eval[1]、InfinityBench[18]和NoCha[11]侧重于长输入上的检索和回忆。它们与我们的场景互补,但不衡量叙事结构。

#### 故事和剧本生成。
Re3[16]、DOC[17]、Dramatron[13]、WritingBench[15]以及故事生成即搜索[4]针对计划-写作或基于搜索的长形式生成。最接近的先前工作是学习型规划器[14]和结构化记忆变换器[9],两者都在基础生成器之上添加了显式结构。

#### 状态空间模型。
S4[7]、Mamba[6]和Mamba-2[5]提供了线性时间序列骨干,可扩展到长上下文。N-VSSM使用Mamba-2作为其解码器。

#### 跨文化NLG。
本地化中的欠规范[10]和LLM中的文化对齐[3]激发了我们的跨语言协议和文化迁移函数。

## 3 NarrativeWorldBench

### 3.1 源语料库

该基准基于来自38个系列的1,204个连载音频剧延续实例,所有实例均根据开放再分发许可证(CC-BY 4.0或CC-BY-SA 4.0)发布。语料库在戏剧、惊悚、奇幻、科幻、生活切片和悬疑之间实现了体裁平衡。每个系列至少有80集的剧情线长度。平均每集长度为4,820个单词。剧情线跨越80到412集,中位数为178。

### 3.2 评估视界与协议

我们在五个视界h∈{10,20,50,100,200}上进行评估。对于每个实例,模型以第1...k集以及第k+h集的结构化场景计划为条件,必须生成第k+h集。中间的k+1...k+h-1集被保留:模型仅接收结构化场景计划,从不接收被保留的剧集。这隔离了模型向前传递叙事状态的能力,而不是复制或检索。

### 3.3 指标

NarrativeWorldBench报告九项指标,全部可自动化且可复现。

- **情节节拍F1(主要指标)**:基于14类“救猫咪”情节节拍分类法的F1,由一个留出裁判集成提取。
- **角色声音一致性**:每个角色风格嵌入质心之间的余弦距离。
- **世界规则违反率**:违反每系列规则(来自系列圣经)的比率。
- **伏笔兑现率**:在h集内兑现的已引入伏笔的比例。
- **时间连贯性**:提取的事件链中顺序违反率。
- **主题重现性**:留出部分与生成部分中主题分布之间的KL散度。
- **情感弧对齐**:每场景效价和唤起轨迹上的动态时间规整(DTW)。
- **对话归属准确率**:说话人识别F1。
- **主题持续性**:每个主题生命周期分布的重叠。

### 3.4 跨文化本地化

我们将留出提示翻译成印地语、泰米尔语、泰卢固语和马拉地语,每种语言使用三名专业翻译,并经过回译审查。然后,每集由三名母语评分员在已校准的7点李克特量表上对文化保真度进行评分,涵盖习语、社会背景和语域。

## 4 前沿审计

### 4.1 系统

我们评估了五个层级的21个系统。

- **经典**:GPT-3.5-Turbo,Llama-2-70B。
- **微调叙事基线**:基于Llama-3-70B重新实现的DOC、Dramatron和Re3。
- **开放前沿**:Llama-3.1-405B,DeepSeek-V3,Qwen-2.5-72B,Mixtral-8x22B及其他开放系统。
- **封闭前沿**:Claude Opus 4.5,GPT-5,Gemini-2.5-Pro,Grok-4-Heavy。
- **推理层级**:o3-Pro,Claude Opus 4.5(思考模式),Gemini-2.5-Pro(深度思考),DeepSeek-R1。

所有系统使用温度0.7和top-p 0.95。我们报告基于5个种子的95%置信区间。

### 4.2 饱和

在h=50时,封闭前沿和推理层级紧密聚集在区间[0.78,0.81]内。对\(\binom{8}{2}=28\)个配对比较进行的Welch t检验(Bonferroni校正)发现,任何封闭与推理配对之间均无显著差异(所有p>0.13)。表1报告了h=50时的情节节拍F1。图1可视化了同一区间。

表1:h=50时的情节节拍F1。封闭前沿和推理系统饱和于区间[0.78,0.81]。N-VSSM是唯一高于该区间的系统。数值为5个种子上的平均值±95%置信区间。参见说明 图1:h=50时的饱和。封闭前沿和推理层级的系统聚集在区间[0.78,0.81]内,无论规模或推理预算如何,而N-VSSM位于该区间之上。
### 4.3 视界崩溃

在所有视界上,每个封闭和推理系统从h=10到h=200损失的F1在-0.18到-0.21之间。下降是单调且显著的(对8个模型-视界对比进行Bonferroni校正,每个p<10^{-4})。表2报告了所有五个视界上的情节节拍F1。图2绘制了崩溃情况。N-VSSM几乎保持平坦。

表2:视界h∈{10,20,50,100,200}上的情节节拍F1。前沿和推理系统下降约-0.20 F1;N-VSSM几乎保持平坦。参见说明 图2:视界崩溃。前沿和推理系统的情节节拍F1从h=10到h=200下降约-0.20,而N-VSSM在所有视界上保持情节节拍F1≥0.84。

## 5 N-VSSM

### 5.1 架构

N-VSSM使用明确的叙事隐变量\(z_t \in \mathbb{R}^{256}\)增强了Mamba-2 8B解码器,该隐变量每场景更新一次。在每个场景边界,事件提取器产生一个元组\(e_t=(actor, action, object, location, outcome)\)。隐后验为

\[
q_{\phi}(z_t \mid z_{t-1}, e_t, h_t) = \mathcal{N}\bigl(\mu_{\phi}, \operatorname{diag}(\sigma^2_{\phi})\bigr), \tag{1}
\]

其中\(h_t\)是Mamba-2隐藏状态。生成以\(z_t\)为条件,通过交叉注意插入到每四个Mamba-2块的低秩适配器中。表3报告了推理计算量。

表3:推理计算量,以每集H100秒和相对于GPT-5衡量。N-VSSM的每集成本大约比封闭前沿区间低4倍。
### 5.2 训练

我们在去重后的480B token英语小说混合数据上预训练Mamba-2 8B骨干,然后在严格的系列级别留出分割下,将其与隐模块在180万个序列化小说场景上联合微调。损失是每场景的负ELBO(含KL退火)加上一个伏笔兑现辅助损失。训练在384块H100 GPU上运行了9.4天。

### 5.3 文化迁移函数

对于每个非英语目标语言\(l\),我们学习一个残差变换\(T_l: \mathbb{R}^{256} \to \mathbb{R}^{256}\),这是一个两层MLP,在24k个平行(英语,\(l\))场景对上训练,使用对比损失加散度惩罚。该变换将隐变量移向目标文化的表示区域,而无需重新训练解码器。

## 6 实验

### 6.1 主要结果

N-VSSM在每个视界上保持情节节拍F1≥0.84,同时推理成本每集低4倍。其最大增益体现在长视界的结构指标上:相对于h=200时的前沿区间,伏笔兑现提升了+0.18,时间连贯性提升了+0.14,主题持续性提升了+0.12。

### 6.2 跨文化

启用文化迁移函数后,母语评分者的平均文化保真度在7点李克特量表上,印地语从4.31上升到4.51,泰米尔语从4.18上升到4.39,泰卢固语从4.22上升到4.42,马拉地语从4.26上升到4.49。每次提升+0.20至+0.23均显著(p<0.01,混合效应模型,Benjamini-Hochberg校正)。

### 6.3 消融

移除隐后验导致在h=200时情节节拍F1下降-0.11。将Mamba-2替换为相同参数的变换器导致F1下降-0.06。移除伏笔兑现辅助损失导致伏笔兑现率下降-0.13。

### 6.4 裁判稳健性

情节节拍提取使用三个裁判(GPT-4o、Claude Sonnet 4.5、Gemini-2.5-Flash)的集成,采用多数投票。集成在1,200个标注节拍上达到了与人类标注者的Cohen's κ=0.78。我们使用与N-VSSM不相交的裁判子集(仅Claude和Gemini)复制了结果,排名未变。

## 7 作者研究

我们招募了n=12名专业音频剧作者(中位数7年经验),按每小时80美元补偿。设计为被试内、条件顺序平衡,使用匹配的用户界面和对N-VSSM与Claude Opus 4.5的拉丁方比较。每位作者完成了20次试验(共240次),每次共同创作一个5集续篇。我们拟合了一个混合效应逻辑回归,包含作者和系列的随机截距以及试验顺序的固定效应。

在71%的试验中,N-VSSM在长篇连贯性上被偏好(95% CI [64%, 77%]),在可控性上评分高出+1.3李克特分(95% CI [+0.9, +1.7])。条件顺序效应很小(β=0.04,p=0.61)。

## 8 讨论

仅靠前沿扩展无法打破上限,因为长视界序列化小说是一个部分可观测的过程:其隐状态无法从局部上下文中恢复。结构化隐变量使得长视界信息能够以有界遗忘的方式传递。而文化对齐可以作为一个表示变换来恢复,而无需重新训练进解码器。

## 9 局限性

开放许可系列的语料库偏向独立制作。我们仅覆盖了四种印度语言。存在裁判模型与某些评估模型重叠的情况。作者研究的n=12。预训练以英语为中心。

## 10 结论

我们提出了一个包含九项指标的基准,揭示了21个系统在视界处-0.20 F1的崩溃,以及N-VSSM,一个跨越上限并被专业作者偏好的隐式世界模型。我们发布了基准、模型轨迹、工具、模型权重和文化迁移函数。

## 伦理声明

所有源材料均具有开放许可(CC-BY 4.0或CC-BY-SA 4.0)。语料库不包含个人可识别信息,配音演员姓名已隐去。作者研究被认定为IRB豁免。N-VSSM权重根据研究用途许可发布。

## 可复现性声明

每个报告的数字均为5个种子的平均值,并附有95%置信区间。我们发布了完整的超参数和确切的裁判提示。一个可运行的复现过程可在6个H100小时内重现所有表格。

## 附录A 详细指标定义

情节节拍F1基于以下14类“救猫咪”节拍分类法计算:开场画面、主题陈述、铺垫、催化剂、争论、第二幕开始、B故事、娱乐游戏、中点、坏蛋逼近、全军覆没、灵魂暗夜、第三幕开始、终局。其余八项指标定义于第3.3节;每项指标均附带参考实现和值越大越好的方向。

## 附录B 每模型每指标表格

完整的21×9×5表(21个模型、9项指标、5个视界)以及每系统每指标的可复现数值可在https://anonymous.4open.science/r/N-VSSM-Repro找到。表B.1展示了h=200时的一组行。该表格遵循第3.3节中列出的指标顺序。

相似文章

WBench:面向交互式视频世界模型评估的综合多轮基准

Hugging Face Daily Papers

WBench是一个全面的多轮基准,用于评估交互式世界模型在五个维度上的表现,包含289个测试用例和1,058次交互轮次,提供自动子指标和诊断洞察。它揭示了没有单一模型能在所有维度上都表现优异。