当推理监督适得其反:基于TTCW的长篇文学评论生成

arXiv cs.CL 论文

摘要

本文构建了一个包含263,911篇长篇小说的大型数据集,这些故事通过基于TTCW的创造力指标进行了标注,并对Qwen3模型进行微调以生成结构化的评论报告。研究发现,非推理微调优于推理监督微调,后者容易出现解析失败和不相关的重复。

arXiv:2605.20364v1 Announce Type: new 摘要:长篇文学写作的自动评估仍然具有挑战性,因为通用的LLM-as-Judge方法可能无法完全捕捉与创造力相关的维度,如原创性和灵活性。尽管托伦斯创意写作测试(TTCW)提供了结构化的创造力框架,并且先前的工作已展示了在成对级别上基于参考的TTCW评估,但目前尚无用于基于TTCW的长篇文学评论生成的大规模数据集。我们通过构建一个包含263,911篇长篇故事的数据集来填补这一空白,每个故事在14个TTCW维度上标注了标量分数和元综合评论。利用该数据集,我们在两个规模(4B和8B)上对Qwen3模型进行微调,分别在有无推理内容的两种条件下进行。结果表明,非推理微调实现了更强且更稳定的性能,最佳设置达到了0.6820的评估分数。进一步分析显示,推理监督模型更容易出现解析失败,常常继续生成不相关或重复的推理风格文本,而不是完成所需的14指标评论报告。这些结果表明,对于固定格式的基于评分标准的评论生成,推理监督并非直接有益,即使在任务特定微调后,精确的指标对齐评分仍然具有挑战性。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:32

# 当推理监督有害时:基于 TTCW 的长篇文学评论生成

来源:https://arxiv.org/html/2605.20364

Jinlong Liu Mohammed Bahja Mark Lee  
英国伯明翰大学计算机科学学院  
jxl2069@student\.bham\.ac\.uk; \{m\.bahja,m\.g\.lee\}@bham\.ac\.uk

###### 摘要

长篇文学写作的自动评估仍然具有挑战性,因为通用的 LLM 作为评审方法可能无法完全捕捉与创造力相关的维度,例如原创性和灵活性。尽管托兰斯创造性写作测验 (TTCW) 提供了一个结构化的创造力框架,并且先前的工作已展示了基于参考的成对级 TTCW 评估,但目前尚不存在用于长篇基于 TTCW 的文学评论生成的大规模数据集。我们通过构建一个包含 263,911 篇长篇故事的数据集来弥补这一空白,每篇故事都带有标量评分和跨 14 个 TTCW 维度的元综合评论。利用该数据集,我们对 Qwen3 模型在两个规模(4B 和 8B)下进行微调,条件分为两种:包含和不包含推理内容。结果表明,非推理微调实现了更强且更稳定的性能,最佳设置达到了 0.6820 的评估分数。进一步分析表明,推理监督模型更容易出现解析失败,通常会继续生成不相关或重复的推理风格文本,而不是完成所需的 14 个指标评论报告。这些结果表明,对于固定格式的基于量规的评论生成,推理监督并非直接有益,即使在特定任务微调之后,精确的指标对齐评分仍然具有挑战性。¹¹代码可在 https://github.com/Vince-Liuss/TTCW-based-Review 获取

# 当推理监督有害时:基于 TTCW 的长篇文学评论生成

Jinlong Liu Mohammed Bahja Mark Lee  
英国伯明翰大学计算机科学学院  
jxl2069@student\.bham\.ac\.uk; \{m\.bahja,m\.g\.lee\}@bham\.ac\.uk

## 1 引言

近年来,LLM 作为评审变得越来越常见,并在多种评估设置中展现出有前景的可靠性 [Bonomo 等人,2025 (https://arxiv.org/html/2605.20364#bib.bib9);Chiang 和 Lee,2023 (https://arxiv.org/html/2605.20364#bib.bib13);Liu 等人,2023 (https://arxiv.org/html/2605.20364#bib.bib3)]。与此同时,针对长篇文学或叙事评估的基准和资源也越来越多,包括 ABSEval [Liang 等人,2024 (https://arxiv.org/html/2605.20364#bib.bib1)]、STORYWARS [Du 和 Chilton,2023 (https://arxiv.org/html/2605.20364#bib.bib8)] 和 CollabStory [Venkatraman 等人,2025 (https://arxiv.org/html/2605.20364#bib.bib2)]。同时,10.1145/3613904.3642731 引入了 TTCW 作为结构化的创造力导向评估框架,Li 等人 [2025a (https://arxiv.org/html/2605.20364#bib.bib14)] 进一步提出了基于参考的 TTCW 评估器。

然而,当前的工作仍然缺乏用于无参考设置下基于 TTCW 的长篇评论生成的公开数据集。现有的长篇文学评估资源不提供基于 TTCW 的评论报告作为监督,而现有的基于 TTCW 的评估工作也尚未发布专注于文学评论生成的大规模数据集。这使得训练必须同时在结构化量规下生成指标对齐的评分和评论的评审式模型存在空白。

为了弥补这一空白,我们通过将原始的 TTCW 二元问题转换为 1 到 10 的标量评分问题,构建了一个大型的基于 TTCW 的文学评论数据集。我们要求三个评审模型独立地对每个故事的 14 个 TTCW 指标进行评分,通过评分分布、区分度和指标隔离分析来评估评审质量,移除最弱的评审者,然后使用一个单独的模型将剩余的指标评论综合成最终的评论报告。最终数据集包含 263,911 行长篇故事,字数范围在 4K 到 8K 之间,每个故事都配有一个完整的基于 TTCW 的评论报告。

利用该数据集,我们进一步研究了推理监督是否能够改善这个结构化量规评论任务的性能。我们比较了包含和不包含推理内容的微调模型,发现非推理设置整体表现更好。结果表明,对于具有明确分数预测的固定格式评论生成,推理内容并未提升性能,反而可能降低输出的稳定性。我们的主要贡献如下:

- • 我们通过将原始的 TTCW 二元问题转换为基于标量评分的评论监督,构建了一个用于长篇文学评论生成的大型 TTCW 数据集。
- • 我们设计了一个数据集构建流程,该流程执行指标级评审评分、评审质量过滤和评论综合,以生成长篇故事的完整 TTCW 评论报告。
- • 我们提供了在这个结构化评论任务上进行推理和非推理微调的经验比较,并表明非推理监督在我们的设置中表现更好。

## 2 相关工作

我们回顾两条路线:(i) *LLM 作为评审* 用于开放式文本评估,以及 (ii) 过去两年中 *长篇文学* 资源和指标。然后我们确定了围绕 TTCW 的监督空白。

### 2.1 LLM 作为评审

Bonomo 等人 [2025 (https://arxiv.org/html/2605.20364#bib.bib9)] 引入 LiteraryQA,这是 NarrativeQA 的一个针对文学作品的清洁子集,并进行了一项元评估,表明 n-gram 指标与人类判断的相关性较弱,而 LLM 评审——包括小规模开源模型——在基于参考的协议下能恢复类似人类的排序。Chiang 和 Lee [2023 (https://arxiv.org/html/2605.20364#bib.bib13)] 通过向模型提供与人类研究相同的指令和项目来评估“LLM 作为评估者”;模型评分与专家判断一致,并且在不同提示格式和采样选择下保持稳定。Liu 等人 [2023 (https://arxiv.org/html/2605.20364#bib.bib3)] 提出 G-EVAL,其中 GPT-4 作为评审在摘要任务上达到 Spearman ρ=0.514 与人类的相关性,说明量规提示的评审可以达到有竞争力的人类对齐。

话语级别的分析揭示了通用评审可能遗漏叙事结构的地方。Tian 等人 [2024 (https://arxiv.org/html/2605.20364#bib.bib12)] 分析了故事弧线、转折点和情感;基线弧线识别对于中档模型几乎是随机的,对于前沿模型有所改善,但仍低于人类;显式建模弧线/情感提高了叙事多样性、悬念和唤醒度。

TTCW 通过 14 个二元测试(流畅性、灵活性、原创性和详尽性)将创造力操作化为产品 [10.1145/3613904.3642731]。报告的每项测试评分者间一致性中等,而聚合一致性较强,支持 TTCW 作为一种可重现的 *基于集合* 的评估协议。最近的调查列举了 LLM 作为评审的局限性(例如,情感、标记和上下文/文化偏见),并概述了可靠性实践(例如,成对比较、偏差控制)。

### 2.2 长篇文学资源和指标

脚本化与协作叙事。Liang 等人 [2024 (https://arxiv.org/html/2605.20364#bib.bib1)] 提出了 ABSEval 以及 MCScript(1,500 个任务),并报告与单 LLM 设置相比,更接近人类判断的对齐;顶级系统包括强大的聊天模型,而智能体框架提高了与人类评估者的一致性。Du 和 Chilton [2023 (https://arxiv.org/html/2605.20364#bib.bib8)] 发布了 STORYWARS(4 万个人类撰写的协作故事;12 种任务类型,101 个任务)。Venkatraman 等人 [2025 (https://arxiv.org/html/2605.20364#bib.bib2)] 构建了 CollabStory(3.2 万 LLM 合著的故事),并表明标准基线在作者身份相关任务上表现不佳;微调的 Transformer 在边界作者身份验证上表现强劲。

角色认知与内心想法。Xu 等人 [2025 (https://arxiv.org/html/2605.20364#bib.bib4)] 提出了 ROLETHINK(来自 76 本书籍的 6,058 个实例),用于角色思想生成;MIRROR(记忆检索 + 思维链)优于基线。黄金(原始独白)比银牌(专家分析)更难,表明对参考保真度和记忆访问的敏感性。

长上下文生成与长文本建模。Liu 等人 [2024 (https://arxiv.org/html/2605.20364#bib.bib5)] 引入了 LongGenBench,用于长上下文 *生成*(逻辑流程);高基线模型退化更少,而系列内缩放(例如,LLaMA-3、Qwen2)减少了性能下降。Guan 等人 [2022 (https://arxiv.org/html/2605.20364#bib.bib6)] 提出了 LOT(中文长文本),并表明在 120G 小说上预训练的 LongLM 在理解和生成方面显著优于相似大小的基线,且人类标记的理解任务具有高一致性。Yang 和 Jin [2025 (https://arxiv.org/html/2605.20364#bib.bib11)] 引入了 LongStoryEval(600 本书;平均 121k 个 token),从读者评论中推导出方面标准,并报告 NovelCritic 在整体和大多数方面与人类评分对齐最佳。

压力测试与评估模型。He 等人 [2023 (https://arxiv.org/html/2605.20364#bib.bib7)] 设计了合成压力测试,揭示了基于模型的指标中的盲点,推荐了指标组合和鲁棒性探测。为评估而微调的评估模型包括 PandaLM,该模型在其测试平台上恢复了 GPT-3.5/4 的大部分评估能力,并在其调整方案下改善了基础模型 [wang2024pandalmautomaticevaluationbenchmark];以及 Themis,一个无参考评估器,训练时使用一致性验证和面向评分的偏好对齐,在其设置下报告了在六个自然语言生成 (NLG) 任务上的最佳平均性能 [Hu 等人,2024 (https://arxiv.org/html/2605.20364#bib.bib10)]。wu2025writingbenchcomprehensivebenchmarkgenerative 提出了 WritingBench(六个领域,100 个子领域)以及一个微调的评论者;一些英文提示要求模仿非英语人物(例如,“写一个像李白的故事”),这可能会产生翻译腔而不是地道的英文文学写作,并使跨领域的可比性复杂化。

面向创造力的评估。Li 等人 [2025a (https://arxiv.org/html/2605.20364#bib.bib14)] 提出了一种基于参考的 TTCW 评估器,并报告了对齐改善(成对准确率高达 0.75)。关于创造性奖励塑造 (RLAIF) 的补充工作报告了在受约束创意设置(例如,中文问候语)中与人类判断的高度一致,并强调了原则性评审提示或奖励模型的作用 [Wei 等人,2025 (https://arxiv.org/html/2605.20364#bib.bib15)]。对复杂评估上下文的偏见分析发现了 LLM 评审中由辅助信息引起的脆弱性,促使进行显式的鲁棒性检查 [Li 等人,2025b (https://arxiv.org/html/2605.20364#bib.bib16)]。

### 2.3 差距:TTCW 基础评估的监督

尽管最近取得了进展,但仍没有公开的、带有 TTCW 标记监督的长篇数据集用于自动评审。现有的评估模型通常基于通用量规训练,而长篇文学基准不提供 TTCW 基础的评论监督。因此,当前的评估设置可能更容易捕捉表面质量,而不易捕捉创造相关的维度,如原创性和灵活性。我们通过构建一个基于 TTCW 的长篇文学评论生成数据集,并利用它来研究结构化量规评估,从而弥补这一空白。

参考图注(a) 归一化得分熵(越高越好)
参考图注(b) 每指标得分方差(越高越好)
参考图注(c) 得分区间覆盖率(越高越好)

图 1:各评审模型之间的区分度得分比较。Gpt-oss-120b 展现出最强的标准敏感得分使用,具有最高的归一化熵和每指标方差。Llama-3_3-Nemotron-Super-49B-v1_5 处于中间水平。Qwen3-Next-80B-A3B-Instruct 尽管有满区间覆盖率,但熵极低,表明得分高度集中,实际区分能力较弱。表 1:完整共享系统提示和数据构建中使用的完整 Fluency1 提示。Fluency1 中的指标描述遵循 10.1145/3613904.3642731 中原始 TTCW 标准的措辞,而评分指令和输出格式则根据我们的评论生成设置进行了调整。参考图注图 2:各评审模型的紧凑组级指标间相关性比较。原始的 14 个 TTCW 指标被聚合成四个 TTCW 维度:流畅性、灵活性、原创性和详尽性。对角线单元格报告维度内的平均非对角线 Pearson 相关系数,而非对角线单元格报告跨维度的平均 Pearson 相关系数。Qwen3-80B 显示出相对较低的组级相关性,但这在我们的设置中并不表明更强的评审质量;结合其较弱的得分分布行为和强得分集中性,表明其在样本间的实际区分能力有限。因此,我们将 Qwen3-80B 排除在最终综合阶段之外,保留 GPT-OSS-120B 和 Nemotron-49B。完整的 14 指标相关性热力图见图 4 (https://arxiv.org/html/2605.20364#A1.F4)。

## 3 数据集准备

我们首先将原始 TTCW 指标问题从二元判断重新表述为 1-10 的标量评分,在系统指令中嵌入明确的得分锚点,以便所有评审模型在相同的量规下运行,如表 1 (https://arxiv.org/html/2605.20364#S2.T1) 所示。为了最小化跨指标干扰并降低评审者将多个标准合并为一个潜在判断的风险,我们独立评估 14 个指标,而不是联合评估;完整指标列表见附录。

我们选择了三个近期且能力较强的评审模型:Llama-3_3-Nemotron-Super-49B-v1_5 [bercovich2025llamanemotronefficientreasoningmodels]、Qwen3-Next-80B-A3B-Instruct [qwen3technicalreport](非推理模式)和 gpt-oss-120b [openai2025gptoss120bgptoss20bmodel]。对于源小说,我们使用 WritingPrompts 语料库 [Fan 等人,2018 (https://arxiv.org/html/2605.20364#bib.bib17)]。由于许多故事的长度低于适合长篇评估的阈值,我们移除超过 8K 词的样本,并使用 Gemma-3-27b-it [geminiteam2025geminifamilyhighlycapable] 从原始提示重新生成故事,将人类撰写的故事作为参考,以获得 4K-8K 词范围的样本。然后每个评审模型一次评估一个故事的一个指标,而 GLM-4.5-Air [5team2025glm45agenticreasoningcoding] 作为元综合模型,将每个故事的每个指标评论整合成一个连贯的评论。所有模型均使用 temperature = 0 运行。

在最终确定数据集之前,我们使用三种诊断方法评估评审者的适用性:得分分布,用于检测得分集中或天花板效应;区分度得分,用于衡量评审者是否充分利用得分尺度来区分故事;以及指标隔离,用于检查 14 个 TTCW 指标是否被视为不同的标准,而不是合并成一个潜在的总体质量判断。结果如图 1 (https://arxiv.org/html/2605.20364#S2.F1)、图 3 (https://arxiv.org/html/2605.20364#A1.F3)、图 2 (https://arxiv.org/html/2605.20364#S2.F2) 和图 4 (https://arxiv.org/html/2605.20364#A1.F4) 所示。

与 gpt-oss-120b 和 Llama-3_3-Nemotron-Super-49B-v1_5 相比,Qwen3-Next-80B-A3B-Instruct 显示出较弱的评审适宜

相似文章

推理监督的哪些特性与下游模型质量的提升相关?

arXiv cs.AI

本文研究内在数据指标,以在代价高昂的微调之前预测推理监督的效用,发现较小的模型受益于对齐导向的指标,而较大的模型则从冗长跟踪中获益,从而建立了一个尺度感知的框架来验证推理数据集。

解码大型推理模型中的批判机制

Hugging Face Daily Papers

本文研究大型推理模型如何在内部检测并纠正自身错误,识别出一个高度可解释的批判向量,该向量无需额外训练即可增强错误检测能力,并提升测试时扩展性能。

ReCrit:面向科学批评推理的过渡感知强化学习

arXiv cs.LG

ReCrit 提出了一种面向科学批评推理的过渡感知强化学习框架,将初始到批评行为分解为四个象限(Correction、Sycophancy、Robustness、Boundary),并使用动态异步展开。它在多个科学基准上显著提升了 Qwen 模型的批评准确性。