多样性注入的位置至关重要:面向多样化生成的统一框架

arXiv cs.CL 论文

摘要

本文提出了一个用于大型语言模型测试时多样化生成的统一框架,根据多样性注入的位置(表面级 vs. 规范级)对方法进行分类。它提出了规范级方法,首先生成多样化的中间规范,然后基于这些规范生成最终响应。在五个开放任务和四个骨干模型上,规范级注入在保持质量的同时提升了输出多样性。

arXiv:2606.10302v1 公告类型:新 摘要:开放生成任务通常需要一组有实质差异的输出,但大型语言模型往往产生相似的生成结果。现有的测试时多样性方法在不同生成阶段运行,效果各异,但目前尚不清楚哪些设计选择能带来输出中有意义的多样性。我们提出了一个框架,通过生成过程中引入的多样性来源来刻画测试时多样性生成方法,并提供了传播分数来衡量来源中的变化在多大程度上传递到最终输出。在此框架指导下,我们提出了全自动的规范级生成方法,首先生成多样化的中间规范,然后基于这些规范生成最终响应。在五个开放任务和四个骨干模型上,规范级注入相较于测试时基线方法提升了输出多样性,同时保持了可比较的质量。我们的分析表明,成功的多样性注入既取决于来源的多样性,也取决于它们到输出的传播,突出了来源设计和源到输出的实现是构建更多样化生成系统的两个关键杠杆。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:10

# 一个多样化的统一框架 来源:https://arxiv.org/html/2606.10302 ## 注入多样性的位置至关重要:一个多样化的统一框架 程哲 北卡罗来纳大学教堂山分校 zch@cs\.unc\.edu & 瑞欣 华盛顿大学 rx31@cs\.washington\.edu & 钟楚迪 北卡罗来纳大学教堂山分校 chudi@unc\.edu ###### 摘要 开放式的生成任务通常需要一组有意义的、不同的输出,然而大型语言模型往往会产生相似的生成结果。现有的测试时多样化方法在生成的不同阶段操作,效果各异,但目前尚不清楚哪些设计选择能导致输出中有意义的多样性。我们引入了一个框架,通过生成过程中引入的多样性源来刻画测试时多样化生成方法,并提供了一个传输分数来衡量源中的变化在多大程度上有效传递到了最终输出。在该框架的指导下,我们提出了完全自动化的规范级生成方法,该方法首先生成多样化的中间规范,然后基于这些规范生成最终响应。在五个开放式任务和四个基础模型上,规范级注入在保持可比质量的同时,比测试时基线方法提高了输出的多样性。我们的分析表明,成功的多样性注入既取决于多样性源的多样性,也取决于它们向输出的传输,凸显了源设计和源到输出的实现是构建更多样化生成系统的两个关键杠杆。注入多样性的位置至关重要:一个多样化的统一框架 程哲 北卡罗来纳大学教堂山分校 zch@cs\.unc\.edu 瑞欣 华盛顿大学 rx31@cs\.washington\.edu 钟楚迪 北卡罗来纳大学教堂山分校 chudi@unc\.edu ## 1 引言 大型语言模型 (LLMs) 越来越多地用于开放式生成任务,例如创意写作、头脑风暴、辩论和构思。在这些场景中,用户通常需要一组有意义的、不同的输出,而不是单个最佳答案。然而,当使用相同的请求反复提示时,LLMs 往往会收敛于相似的高级模式和重复的想法,产生措辞不同但实质内容相似的输出 (Sorensen et al., 2024 (https://arxiv.org/html/2606.10302#bib.bib31); Jiang et al., 2026 (https://arxiv.org/html/2606.10302#bib.bib32))。这限制了生成多个输出的实际价值,并有使提供给用户的创意输入同质化的风险。越来越多的测试时方法试图通过温度缩放或修改后的采样策略来增加解码随机性 (Fan et al., 2018 (https://arxiv.org/html/2606.10302#bib.bib4); Holtzman et al., 2020 (https://arxiv.org/html/2606.10302#bib.bib7); Minh et al., 2025 (https://arxiv.org/html/2606.10302#bib.bib12)),或者通过在生成过程中引入每个输出独立的随机字符串或噪声 token (Misaki and Akiba, 2026 (https://arxiv.org/html/2606.10302#bib.bib30); Agrawal and Goyal, 2026 (https://arxiv.org/html/2606.10302#bib.bib2)),或者通过促进多样性的模块指导解码 (Ruan et al., 2025 (https://arxiv.org/html/2606.10302#bib.bib15)) 来解决这个问题。这些方法在生成过程的不同阶段操作,并注入不同形式的变化,这引发了一个自然的问题:哪种类型的多样性源更有效地产生多样化的最终输出? 在这项工作中,我们提出了一个**多样性注入框架**,一个用于研究测试时多样化生成的统一视角。我们将生成形式化为 yi=G(x,zi) 其中 x 是输入提示,zi 是一个显式的多样性源,它在不同输出之间变化。方法的区别在于 zi 是否存在以及它携带什么信息。我们将方法分为三个层次:**无注入**(第 0 层),其中不存在每个输出独立的 zi;**表层注入**(第 1 层),其中 zi 不携带关于输出的语义内容;以及**规范级注入**(第 2 层),其中 zi 提供了详细的生成配置。我们引入了一个输出多样性的熵分解,分为**注入多样性**(多样性源 zi 的多样性如何)、**信息损失**(z 中的多样性未在输出中实现的部分)和**残余随机性**(来自解码的变化)。从这个分解中,我们推导出一个**传输分数**,用于量化注入的多样性有多大比例到达了最终输出。 通过该框架的分析表明,现有的完全自动化多样性方法仍然停留在第 0 层或第 1 层,完全依赖解码随机性或注入携带很少语义内容的多样性源。第 2 层注入尚未被充分探索用于促进多样化生成。这一差距促使我们提出一个问题:**规范级多样性注入能否在一般的开放式任务中提高输出多样性?** 我们提出了完全自动化的方法来实现第 2 层注入,这些方法适用于广泛的开放式生成任务。给定一个提示,模型首先生成多个多样化的规范,每个规范描述了一个不同的生成配置,涵盖了视角、语气和主题焦点等多个维度。然后,模型基于每个规范来生成最终输出。整个过程无需人工干预,也无需针对特定任务进行工程优化:同样的流程适用于创意写作、辩论、诗歌和头脑风暴。 总之,我们做出了三项贡献:(1) 一个统一框架,通过多样性源的性质来刻画测试时多样化生成方法,以及一个基于熵的传输分数,用于量化注入的多样性在多大程度上有效到达输出;(2) 自动化的、通用目的的规范级方法,通过中间生成配置注入多样性;(3) 在 5 个开放式任务和 4 个基础模型上的经验证据表明,规范级注入在保持可比质量的同时,比低层级的测试时基线方法提高了输出多样性。 ## 2 相关工作 我们在三个方面讨论相关工作:用于多样化生成的测试时方法、基于规划的生成以及多样性评估。 ##### 基于解码的多样化生成。 增加输出多样性的最直接方法是在解码时修改采样策略。温度缩放会拉平输出分布以鼓励更多样的令牌选择 (Ackley et al., 1985 (https://arxiv.org/html/2606.10302#bib.bib1))。Top-k 采样 (Fan et al., 2018 (https://arxiv.org/html/2606.10302#bib.bib4))、Nucleus 采样 (Holtzman et al., 2020 (https://arxiv.org/html/2606.10302#bib.bib7)) 和 Min-p 采样 (Minh et al., 2025 (https://arxiv.org/html/2606.10302#bib.bib12)) 各自使用不同的截断标准来限制候选令牌池。对比搜索 (Su and Collier, 2023 (https://arxiv.org/html/2606.10302#bib.bib17)) 会惩罚与先前上下文过于相似的令牌,而多样化波束搜索 (Vijayakumar et al., 2018 (https://arxiv.org/html/2606.10302#bib.bib19)) 则鼓励波束组之间的多样性。Avoidance Decoding (Park et al., 2025 (https://arxiv.org/html/2606.10302#bib.bib44)) 将这种对比思想扩展到多输出生成,将先前的分支视为负样本,并使用隐藏状态和句子嵌入相似度来惩罚候选令牌。G2 (Ruan et al., 2025 (https://arxiv.org/html/2606.10302#bib.bib15)) 采用了一种不同的方法,通过鼓励新颖性和抑制重复的双重指导模块来引导解码。这些方法都在令牌级别操作,并没有引入显式的每输出独立的条件来结构化解码中的多样性。 ##### 基于提示的多样化生成。 几种无需训练的方法通过提示设计来促进多样性。Zhang et al. (2024 (https://arxiv.org/html/2606.10302#bib.bib21)) 通过多样化上下文学习示例来提高常识生成任务中的多样性。Hayati et al. (2024 (https://arxiv.org/html/2606.10302#bib.bib6)) 探索了通过基于标准的提示在主观话题上进行多样的视角提取。Verbalized Sampling (Zhang et al., 2025a (https://arxiv.org/html/2606.10302#bib.bib29)) 提示模型在一次调用中生成多个候选响应及其相关的概率。SSOT (Misaki and Akiba, 2026 (https://arxiv.org/html/2606.10302#bib.bib30)) 在每个生成前面添加一个随机生成的字符串作为多样性种子,而 Agrawal and Goyal (2026 (https://arxiv.org/html/2606.10302#bib.bib2)) 在提示前添加随机的、不相关的概念,并测量响应中由此产生的变化。与这些方法不同,我们在生成之前为每个输出显式地创建了多样性源。 ##### 基于规划的生成。 另一条工作线使用大纲或计划来控制文本结构,特别是在讲故事中,尽管其目的并非促进输出多样性。DOC (Yang et al., 2023 (https://arxiv.org/html/2606.10302#bib.bib27)) 使用详细的分层大纲来提高长篇故事生成的连贯性。Wang and Kreminski (2024 (https://arxiv.org/html/2606.10302#bib.bib28)) 将符号化大纲规划与基于 LLM 的表层实现相结合用于故事生成,这是建立在早期叙事规划工作基础之上的 (Riedl and Young, 2010 (https://arxiv.org/html/2606.10302#bib.bib39); Cardona-Rivera et al., 2024 (https://arxiv.org/html/2606.10302#bib.bib40))。Luminate (Suh et al., 2024 (https://arxiv.org/html/2606.10302#bib.bib26)) 为人机共创探索生成风格和内容维度,但需要交互式的人类引导。这些方法通常以输出质量为目标,而非多样性,并且大多局限于讲故事或需要人类参与。 ##### 多样性评估 衡量 LLM 输出的多样性仍然是一个开放的挑战。标准的多样性指标包括词汇层面的度量,如 Distinct-N (Li et al., 2016 (https://arxiv.org/html/2606.10302#bib.bib10)) 和 Self-BLEU (Zhu and others, 2018 (https://arxiv.org/html/2606.10302#bib.bib24)),以及使用预训练句子编码器 (Reimers and Gurevych, 2019 (https://arxiv.org/html/2606.10302#bib.bib14)) 的基于嵌入的距离。Shypula et al. (2025 (https://arxiv.org/html/2606.10302#bib.bib16)) 认为多样性应与质量一起联合评估。最近已开发出数据集以促进评估。Zhang et al. (2025b (https://arxiv.org/html/2606.10302#bib.bib23)) 提出了 NoveltyBench,这是一个专门设计用于评估响应多样性的基准。Jiang et al. (2026 (https://arxiv.org/html/2606.10302#bib.bib32)) 引入了 Infinite Chats,这是一个大规模的开放式查询数据集,并用它来研究现代 LLMs 中模型内部和模型之间的同质性问题。我们在实验中使用这些指标和基准。 ## 3 多样性注入框架 当 LLM 为同一个提示生成多个输出时,这些输出可能彼此不同。这些差异可能来自两个来源:解码过程中的随机性,或者将每个生成引导到不同方向的显式指导。我们将这一区别形式化为一个统一框架。 ### 3.1 形式化 给定一个输入提示 x,一个方法产生 m 个输出 {y1,...,ym}。我们将每个输出的生成写为: yi = G(x, zi)     (1) 其中 zi 是一个**多样性源**,即模型在生成 yi 时所依据的超出 x 之外的信息。对于某些方法,zi 不存在;对于其他方法,它可能是一个随机字符串或一组约束。我们根据 zi 携带的信息将方法分为三个层次。 ##### 第 0 层:无注入。 不存在每个输出独立的多样性源。每个输出都从相同的条件分布中采样:yi ~ P(Y | x),输出之间的差异完全来自解码过程的随机性。 ##### 第 1 层:表层注入。 每个输出都基于一个 zi,zi 不携带关于目标输出的语义内容,例如随机种子字符串、一次性令牌或任意标识符。多样性源扰动输入,但不指定输出的任何属性。 ##### 第 2 层:规范级注入。 每个输出都基于一个 zi,zi 在多个维度上指定了生成配置,例如叙事视角、语气、焦点主题、风格寄存器以及内容关键词。多样性源建立了模型**如何**进行生成以及它**强调哪些**元素,共同引导了风格和内容。 这三个层次构成了条件信号中输出多样性递增的谱系。如果存在一个随输出变化但不携带语义内容的每个输出独立的 zi,则该方法属于第 1 层。如果 zi 在多个维度上指定了输出的有意义属性,则属于第 2 层。 ### 3.2 现有方法的分类 表 1 (https://arxiv.org/html/2606.10302#S3.T1) 按注入层次对现有的多样化生成方法进行了分类。 表 1:按注入层次对现有的多样化输出生成方法进行分类。

| 方法 | zi | 层次 |
| :--- | :--- | :--- |
| Direct Generation | 无 | 0 |
| Verbalized Sampling (Zhang et al., 2025a (https://arxiv.org/html/2606.10302#bib.bib29)) | 无 | 0 |
| G2 (Ruan et al., 2025 (https://arxiv.org/html/2606.10302#bib.bib15)) | 无 | 0 |
| SSOT (Misaki and Akiba, 2026 (https://arxiv.org/html/2606.10302#bib.bib30)) | 随机字符串 | 1 |
| Rand Concept (Agrawal and Goyal, 2026 (https://arxiv.org/html/2606.10302#bib.bib2)) | 随机概念 | 1 |

##### 第 0 层方法。 Direct Generation 及其变体(温度缩放、top-k 采样、nucleus 采样和 min-p 采样)重复从同一个提示中采样。它们可能重塑令牌分布,但没有添加每个输出独立的条件,因此多样性完全来自采样随机性。Verbalized Sampling (Zhang et al., 2025a (https://arxiv.org/html/2606.10302#bib.bib29)) 在一次调用中引出多个候选,但每次都发出相同的提示,因此解码随机性仍然是唯一的变化来源。G2 (Ruan et al., 2025 (https://arxiv.org/html/2606.10302#bib.bib15)) 使用促进多样性的指导模块来引导解码,但同样对每个输出使用相同的提示。 ##### 第 1 层方法。 SSOT (Misaki and Akiba, 2026 (https://arxiv.org/html/2606.10302#bib.bib30)) 指示模型首先生成一个随机字符串,然后将其作为种子来生成输出。随机字符串作为 zi 并在不同输出之间变化。然而,它不携带关于期望输出主题或组织的语义内容。同样的情况也适用于 Random Concept (Agrawal and Goyal, 2026 (https://arxiv.org/html/2606.10302#bib.bib2)),它在生成前添加一个不相关的概念作为种子。 ##### 第 2 层的空白。 据我们所知,现有的测试时方法中没有一种通过提供每个输出独立的规范来促进一般开放式生成中的多样性。一个相关的工作线——叙事规划——根据大纲或情节结构 (Yang et al., 2023 (https://arxiv.org/html/2606.10302#bib.bib27); Suh et al., 2024 (https://arxiv.org/html/2606.10302#bib.bib26)) 来条件化生成,但这些方法主要使用规划或规范来提高单个生成的质量,并且通常局限于讲故事。我们在第 4 节 (https://arxiv.org/html/2606.10302#S4) 中通过引入完全自动化的第 2 层方法来解决这一空白,这些方法提供规范以在一般的开放式任务中诱导多样化输出。 ### 3.3 量化多样性传输 上面的框架告诉我们多样性被注入的**位置**。一个自然的下一个问题是:

相似文章

DEI:进化推断中的多样性用于质量-多样性搜索

Hugging Face Daily Papers

DEI引入了一种分布式质量-多样性搜索框架,使用异构大语言模型(LLMs)作为变异算子,表明模型多样性相比同构并行方法能提升性能。在Core War领域上的评估显示,一个四节点异构集成在QD-Score和覆盖率上取得了显著提升。

语言模型中跨语言泛化的体外研究

arXiv cs.CL

本文引入了一个使用两种程序生成语言的体外框架,用于研究语言模型中的跨语言泛化,发现分词对可复用子结构的保留能力对于跨语言能力迁移比词汇相似性或数据平衡更为关键。

输出多样性在后训练中的崩溃发生在哪里?

arXiv cs.CL

本文研究了语言模型后训练期间输出多样性崩溃的位置和原因,分析了三个 OLMo 3 训练线(Think、Instruct、RL-Zero)在多个任务和指标上的表现。研究发现多样性崩溃主要由训练数据组成决定,并在训练期间嵌入到模型权重中,仅通过推理时调整无法解决。