通过风格引导提示解释风格表示

arXiv cs.CL 2026/06/05 04:00 论文

style-representation style-eliciting-prompts llm interpretability nlp authorship-analysis

摘要

本文提出了一个通过使用风格引导提示（即自然语言指令，引导大语言模型生成具有特定风格属性的文本）来解读风格表示的框架。该方法在描述和模仿写作风格方面均优于基线大语言模型提示技术。

arXiv:2606.05716v1 公告类型：新摘要：风格表示学习是作者分析和建模写作风格的有力工具，但学习到的表示的潜在性质使其难以解释。最近的工作尝试通过使用大语言模型（LLM）基于输入文本生成自然语言描述来解释这些表示。然而，这些描述往往容易受到LLM的偏见和幻觉的影响，并且缺乏明确的实用性和目标。在这项工作中，我们提出了一个新颖的框架，通过风格引导提示来解读风格表示：风格引导提示是一种自然语言指令，旨在引导LLM生成反映特定风格属性的文本。我们整理了跨越26个风格类别的1,010个独特的风格特征，并通过提示LLM基于这些特征生成文本来构建数据集。利用这些数据，我们训练一个解码器，从生成文本的风格表示中生成风格提示。我们在三个任务上评估我们的方法：（1）从生成文本中恢复原始风格提示，（2）使用恢复的提示生成相同风格的文本，（3）引导LLM输出以匹配人类编写文本的风格。实验表明，我们的方法始终优于直接使用目标文本提示LLM的强基线，在风格描述和风格模仿方面均表现出优越的性能。这些结果突出表明，风格引导提示可以为编码在风格表示中的风格信息提供一个实用且可解释的接口。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:07

# 通过风格诱导提示解释风格表示

来源：https://arxiv.org/html/2606.05716

###### 摘要

风格表示学习是作者分析和写作风格建模的有力工具，然而学习到的表示的潜在性质使其难以解释。最近的工作试图通过使用大型语言模型（LLM）基于输入文本生成自然语言描述来解释这些表示。然而，这些描述往往容易受到LLM的偏见和幻觉的影响，并且缺乏明确的目标和实际效用。在这项工作中，我们提出了一种新颖的框架，通过风格诱导提示来诠释风格表示：这些提示是自然语言指令，旨在引导LLM生成反映特定风格属性的文本。我们整理了涵盖26个风格类别的1,010个不同的风格特征，并通过提示LLM根据这些特征生成文本构建了一个数据集。利用这些数据，我们训练了一个解码器，从生成文本的风格表示中生成风格提示。我们在三个任务上评估我们的方法：(1) 从生成的文本中恢复原始风格提示，(2) 使用恢复的提示生成相同风格的文本，以及(3) 引导LLM输出以匹配人类编写文本的风格。实验表明，我们的方法始终优于直接使用目标文本提示LLM的强基线方法，在风格描述和风格模仿方面均取得了更优的性能。这些结果强调，风格诱导提示可以为风格表示中编码的风格信息提供一个实用且可解释的接口。

# 通过风格诱导提示解释风格表示

Junghwan Kim and David Jurgens
University of Michigan
{kimjhj,jurgens}@umich.edu

## 1 引言

写作风格是自然语言的核心维度，影响着信息在各种语境中被解读、记忆和传播的方式 (Kelly et al., 2003; Boghrati et al., 2023)。为了在计算上模拟风格变化，最近的工作开发了风格表示——旨在编码风格属性的向量嵌入 (Rivera-Soto et al., 2021; Wegmann et al., 2022; Patel et al., 2025)。这些表示已被证明能有效地建模和比较写作风格 (Neelakanteswara et al., 2024; Soto et al., 2024; Horvitz et al., 2024a,b)。然而，其潜在性质掩盖了它们编码了哪些风格属性，限制了用户如何与其交互以进行受控文本生成。

创建可解释风格表示的一种直观方法是要求LLM用自然语言描述输入文本 (Patel et al., 2023; Alshomary et al., 2025)。然而，自由形式的LLM生成的描述常常忽略重要的风格细微差别，并可能受到模型特定偏见或幻觉的影响 (Ramnath et al., 2025)。更重要的是，这些描述主要是解释性的而非功能性的：如何可靠地使用它们来再现、操作或转移写作风格并不明确。

在这项工作中，我们采取了一种互补的视角，强调控制作为解释，基于LLM在生成文本时遵循风格指令的成熟能力 (Reif et al., 2022)。我们引入了一个框架，将神经风格表示解释为人类语言风格提示——明确指定风格约束并可由LLM直接遵循的自然语言指令。我们的方法构建了一个监督学习设置，首先从已知的风格提示生成文本，然后训练一个解码器从生成文本的风格表示中恢复这些提示。通过将解释扎根于可直接用于生成的提示，这种形式化提供了一个用于风格控制的操作接口，支持诸如创意写作、个性化消息传递和人物模拟等应用 (Mou and Vechtomova, 2020)。

为了支持这种方法，我们构建了一个大规模合成数据集，包含跨26个风格维度的1,010个不同风格特征，包括词汇选择、句法结构、语气和修辞策略。使用这些提示，我们通过LLM生成了180万条风格化响应，形成文本与明确风格指令的配对示例。该数据集为学习解码风格表示提供了细粒度的监督，并实现了对风格表征和可控性的系统评估。

我们在三个任务上展示了我们框架的优势：(1) 从LLM生成的文本中推断原始风格提示，(2) 使用推断出的风格提示生成风格相似的输出，以及(3) 引导LLM模仿非合成的、由人类创作的文本的风格。在所有评估中，我们的方法始终优于那些仅依赖直接使用目标文本提示LLM的基线方法。我们的方法在风格提示恢复方面取得了显著提升（ROUGE-1提升76.0%，LaBSE提升21.7%，LLM-as-judge提升42.8%），并在风格控制方面实现了更强的风格对齐（对于LLM生成的和人类编写的参考，L2改进分别为12.9%和26.1%）。这些结果共同表明，将风格表示解码为可操作的提示为分析和操作写作风格提供了一条有效途径。

我们的贡献总结如下：(1) 我们引入了一个基于解码器的框架，将潜在风格表示转换为自然语言风格提示，从而实现对风格信息的可解释和可控使用。(2) 我们引入了一个新的大规模合成数据集，包含180万条风格化文本，并配对了横跨26个风格维度的多样化、组合式风格提示。(3) 我们证明了我们的方法在风格提示恢复和风格控制任务上显著优于现有基线。(4) 我们发布我们的数据集¹¹¹https://huggingface.co/datasets/Blablablab/style-to-text和代码²²²https://github.com/junghwanjkim/style-decoding，以促进未来关于可解释和可控写作风格建模的研究。

## 2 相关工作

我们的工作连接了几个研究领域，包括风格表示解释、风格描述、风格迁移和提示发现。

#### 风格表示。

最初为作者验证开发的风格表示模型，其训练目标是将同一作者的文本嵌入靠近，同时将不同作者的文本分开 (Rivera-Soto et al., 2021; Wegmann et al., 2022; Patel et al., 2025)。这些密集的向量表示在作者归属等许多任务上，相比更古老、更可解释的风格学方法 (参见 Rangel and Rosso, 2019; Stamatatos et al., 2022; Bevendorff et al., 2024) 取得了显著性能提升。尽管训练目标聚焦于作者身份，但得到的表示捕获了超越特定作者的丰富风格特征。例如，受控的风格扰动会在风格表示空间中引起一致的线性偏移 (Zhu and Jurgens, 2021) 或聚类 (Wegmann et al., 2022)，表明其对风格变化的敏感性。此外，Wang et al. (2023) 验证了CDS数据集 (Krishna et al., 2020) 中的各种非作者特定风格可以从这些表示中成功预测。

#### 风格表示解释。

风格表示的下游应用——如作者分析和写作风格建模——通常需要可解释性和透明度 (Tiersma and Solan, 2002; Biber and Conrad, 2019)。为满足这一需求，先前的工作尝试通过将单个嵌入维度与风格特征对齐 (Patel et al., 2023)，或在潜在风格空间中在代表性示例之间进行插值 (Alshomary et al., 2025) 来解释风格表示。然而，在这两种情况下，得到的风格描述都是通过直接以输入文本提示LLM生成的。因此，这些描述可能无法忠实反映风格表示中编码的风格信息，也没有与具体、可重用的生成或控制目标相关联。相比之下，我们的框架定义了明确的真实风格提示，这些提示捕获了注入风格表示中的风格意图，并可用于引导后续文本生成，从而实现了有效的训练监督和清晰的评估。

#### 风格描述。

最近的研究 (Hung et al., 2023; Huang et al., 2024; Hu et al., 2024b; Ramnath et al., 2025) 探索了将生成风格描述作为基于LLM的作者验证的中间步骤 (Stamatatos, 2016; Tyo et al., 2022)，作者验证旨在确定两个文档是否共享同一个作者。其他工作 (Patel et al., 2024; Yang and Carpuat, 2025) 使用风格描述来支持LLM驱动的风格迁移 (Jin et al., 2022; Hu et al., 2022; Mukherjee et al., 2024)，即用输入的内容和另一个输入的风格生成新文本。然而，正如 Ramnath et al. (2025) 指出的，这些描述往往无法捕捉风格变化的全部范围，并容易受到底层LLM继承的偏见和幻觉的影响。我们的工作通过将风格提示视为真实描述来克服这些限制，从而产生更扎实、目标导向和可操作的风格表征。

#### 风格迁移。

文本风格迁移领域长期以来一直在研究利用表示为风格向量的风格信息 (Hu et al., 2017; Shen et al., 2017; Prabhumoye et al., 2018; Xu et al., 2020; Shen et al., 2020)。最近的工作 (Horvitz et al., 2024a,b) 成功训练了依赖于预训练风格表示作为输入的文本风格迁移模型。虽然我们的设置因其对风格控制的关注而看似相似，但我们的工作无论是在目标还是形式上都与风格迁移有根本不同。我们的目标不是改写给定文本以匹配目标风格，而是明确描述目标风格，并使用该描述生成该风格的新文本。由于这种差异，与风格迁移中通常要求保留含义不同，我们的设置不涉及保留原始内容；相反，我们专注于评估风格描述的忠实度及其对风格变化的效用。

#### 提示发现。

发现能够引发LLM特定行为的提示问题越来越受关注，特别是用于发现有害或不良行为 (Perez et al., 2022; Liu et al., 2024; Hong et al., 2024)。最近的工作将这一范式扩展到针对任意用户定义目标的提示搜索 (Li et al., 2025)。我们的研究解决了一个相关但更细粒度的挑战：发现能够诱发特定写作风格（如语气、句子结构或修辞形式）的提示，这在先前的提示发现工作中尚未被探索。通用的提示发现方法通常旨在找到使LLM生成目标文本的提示，通常依赖强化学习来探索提示空间。相比之下，我们的方法利用合成监督以完全监督的方式高效训练解码器。

## 3 问题形式化

我们通过将风格表示映射到自然语言描述来研究其解释问题。具体来说，我们将风格表示解释形式化为将风格表示解码为风格提示的任务，这些提示可用于引导LLM生成风格与表示隐含描述一致的文本。给定输入文本的风格表示，目标是推断出一个自然语言提示，该提示 (1) 能引发LLM生成的文本，其风格与表示中编码的风格意图一致，并且 (2) 能提供一个可解释的描述，有意义地表征该风格。这种形式化基于三个考虑：(i) 这样的提示易于人类理解，(ii) 它们通过评估生成文本是否展现目标风格来实现原则性评估，以及 (iii) 它们可直接用于下游的LLM生成控制。

形式上，令 \(\mathtt{S}\) 表示一个风格表示模型 (Style Representation Model, SRM)，它将输入文本 \(x\) 映射到潜在风格向量 \(\mathbf{x}\)。我们的目标是学习一个解码器 \(\mathtt{D}\)，它将 \(\mathbf{x}\) 映射到一个风格提示 \(s\)，该提示既能表征 \(\mathbf{x}\) 中编码的风格特征，又能引导后续生成 \(y\) 展现出与 \(x\) 相似的风格。这个目标可以表示为
\[
\arg\min_{\mathtt{D}} \quad \ell(\mathbf{x}, \mathbf{y}),
\]
(1)
其中 \(\mathbf{y} = \mathtt{S}(y)\) 表示生成文本 \(y\) 的风格向量，\(\ell\) 是一个向量距离（例如L2距离）。附录图1(a) 说明了这一形式化。直接优化方程(1)由于提示空间的巨大和离散性质而不可行。为了解决这一挑战，我们通过使用合成数据将问题重新建模为监督学习。具体来说，我们生成合成对 \((x, s)\)，包含一个风格化文本 \(x\) 和用于生成它的风格提示 \(s\)。通过引入这种监督，我们训练一个解码器 \(\mathtt{D}\)，使其输出 \(s\) 近似于从风格表示 \(\mathbf{x}\) 中恢复的提示，从而提供一个可操作且可解释的风格接口。

通过风格引导提示解释风格表示

相似文章

提示复杂性：大型语言模型中文本与行为的最短提示

PromptPrint：通过自然语言提示在大语言模型中实现行为生物特征识别

如何复制自己的写作风格

大语言模型可通过正确提示更好地捕捉人类判断

LLM生成文本中的文学非风格

提交意见反馈