发散诱导提示：零样本推理的多理由归纳

arXiv cs.AI 2026/05/22 04:00 论文

摘要

发散诱导提示（DIP）通过首先生成多个多样化的理由，将每个理由详细阐述为一个详细计划，然后归纳出最终计划，从而增强零样本推理，其性能优于单一策略提示方法。

arXiv:2602.08028v1 Announce Type: cross 摘要：为了解决标准思维链提示中无引导推理路径的不稳定性，最近的方法通过首先引出一个单一推理策略来引导大语言模型（LLMs）。然而，每个问题仅依赖一种策略仍可能限制在不同任务上的性能。我们提出发散诱导提示（DIP），该框架首先提示LLM为每个问题生成多个多样化的高层理由。然后将每个理由详细阐述为详细的逐步草案计划。最后，将这些草案计划归纳为最终计划。DIP提高了零样本推理的准确性，且不依赖资源密集型的采样。实验表明，DIP优于单一策略提示，证明了多计划归纳在基于提示的推理中的有效性。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:51

# 分而诱导提示：面向零样本推理的多理由归纳法  
来源：https://arxiv.org/html/2602.08028  

陈柏均¹，黄瀚萱²，陈信希¹,³  
¹ 国立台湾大学资讯工程学系，台湾  
² 中央研究院资讯科学研究所，台湾  
³ 国立台湾大学人工智能研究中心 (AINTU)，台湾  
[email protected], [email protected], [email protected]  

###### 摘要  
为了应对标准链式思考（Chain-of-Thought）提示中无引导推理路径的不稳定性，近期方法通过首先引出单一推理策略来引导大语言模型（LLMs）。然而，每个问题仅依赖一种策略仍可能限制其在多样化任务上的表现。我们提出**分而诱导提示**（Diverge-to-Induce Prompting, DIP），该框架首先提示LLM为每个问题生成多个多样化、高层级的理由（rationales）。然后，每个理由被详细阐述为分步草案计划。最后，这些草案计划被归纳为最终计划。DIP在不依赖资源密集的采样的前提下，提升了零样本推理的准确性。实验表明，DIP优于单一策略提示法，证明了多计划归纳在基于提示的推理中的有效性。  

---

## 1 引言  
基于提示的推理已成为激发大语言模型（LLMs）逻辑行为的核心范式，尤其在零样本设置中（Wei et al., 2022；Kojima et al., 2022）。一种常见方法是零样本链式思考（CoT）提示，它直接引导模型生成推理链，但推理过程缺乏引导。为应对此限制，近期工作提出了单一策略提示方法，例如**计划与解决提示**（Plan-and-Solve Prompting, Wang et al., 2023a）和**策略链式思考**（Strategic Chain-of-Thought, S-CoT; Wang et al., 2024），这些方法让模型在生成最终答案前先生成一个高层级计划或策略。虽然高效，但这些方法通常每个问题只采用一条路径，依赖模型的初始直觉，可能错过更好的替代方案。其他方法生成多条推理路径并在其中进行选择，例如通过外部投票、重排序或基于采样的聚合（Wang et al., 2022; Zheng et al., 2023; Suzgun and Kalai, 2024），但这些策略需要重复调用模型或额外的选择模块，导致显著的计算开销。  

我们提出**分而诱导提示**（DIP），该框架首先生成多个高层级理由，将每个理由详细阐述为分步草案计划，然后从这些草案计划中归纳出一个最终计划，并用于执行最终推理。受指令归纳（Instruction Induction）研究的启发（Honovich et al., 2023; Chen et al., 2024），DIP使LLM能够通过整合多种视角来综合出一个高质量、实例级的草案计划。实验表明，DIP在大多数评估设置中优于强基线，包括最先进的单一策略提示方法。  

总之，我们的主要贡献有三方面：（1）我们提出了一个多理由归纳框架，为每个问题引出多个高层级理由，使LLM能够整合多种视角，避免单一路径推理的盲区；（2）我们的方法通过多个理由从这些草案计划中归纳出最终计划，不依赖重复采样、投票或外部选择模块；（3）在涵盖多种LLM家族的BBH和LiveBench推理任务上的实验表明，我们的方法在推理准确性上优于最先进的单一路径推理方法。  

参见图1：DIP框架概览。整个过程包括三个主要阶段：发散阶段（Divergent Phase），模型生成多个高层级理由并为每个理由构建草案计划；归纳阶段（Inductive Phase），将所有计划归纳为一个最终计划；推理阶段（Inference Phase），产生最终推理和答案。  

## 2 DIP框架  
DIP包含三个主要阶段：（1）发散阶段，模型生成多个高层级理由并为每个理由构建草案计划；（2）归纳阶段，将这些草案计划整合为最终计划；（3）推理阶段，产生最终推理和答案。图1说明了该过程，完整的提示模板见附录图3–6，其中涵盖了理由生成、草案计划构建、归纳和答案生成的模板。  

### 2.1 理由生成  
给定一个问题 \(x\)，模型在一次调用中生成一组 \(N\) 个高层级理由：  
\[ R = \{r_1, r_2, ..., r_N\} = LLM(x) \]  
每个 \(r_i\) 表示用于求解该问题的一个独特的高层级理由。  

### 2.2 草案计划构建  
每个理由 \(r_i\) 由LLM扩展为对应的分步草案计划 \(p_i\)。所有计划通过一次模型调用生成，输入为 \(x\) 和集合 \(R\)，得到：  
\[ P = \{p_1, p_2, ..., p_N\} = LLM(x, R) \]  
其中每个 \(p_i\) 对应 \(r_i\)。  

### 2.3 草案计划归纳  
归纳阶段从草案计划集合 \(P\) 中归纳出一个融合了多种视角的最终计划：  
\[ P_{\text{DIP}} = LLM(x, P) \]  

### 2.4 最终推理  
归纳得到的最终计划 \(P_{\text{DIP}}\) 被用于回答原始问题：  
\[ (c, y^*) = LLM(P_{\text{DIP}}, x) \]  
其中 \(c\) 表示链式思考推理，\(y^*\) 是最终预测答案。  

表1：不同模型在Z-CoT、R-CoT、S-CoT及我们方法下的零样本性能（%），以及差值 \(\Delta\)（Our - Z-CoT）。蓝色=提升，红色=下降。  

## 3 实验设置  
### 3.1 模型  
我们评估了DIP在多种LLM和大型推理模型（LRM）上的表现，涵盖开源和闭源系统。我们的实验跨越六个主要家族：LLaMA、Mistral、Gemini、GPT、Grok 和 o系列，覆盖不同的模型规模和能力。特别地，我们的评估包括具有扩展推理能力的LRM（o4 Mini 和 Grok 3 Mini），它们采用测试时计算来增强推理。完整的模型名称、版本和配置细节见附录A。  

### 3.2 数据集  
我们使用BIG-Bench Hard（BBH）基准（Suzgun et al., 2022），这是一套从BIG-Bench集合（Srivastava et al., 2022）中精选的任务集，当前LLM难以达到人类平均水平。我们还使用了LiveBench（White et al., 2025）中的推理型任务，这是一个具有挑战性且受污染控制的基准，包含多样化的真实世界问题，用于评估模型的高精度推理能力。  

### 3.3 基线方法  
#### Z-CoT  
我们应用零样本链式思考（Z-CoT）提示（Kojima et al., 2022），直接提示模型生成中间推理步骤，不提供示例。  

#### S-CoT  
自动策略链式思考（S-CoT）由Wang等人（2024）提出，是一种最先进的CoT提示基线。它首先提示模型识别一个高层级的问题解决策略，然后用该策略指导逐步推理。  

#### R-CoT  
我们设计了一个S-CoT的变体，称为理由链式思考（R-CoT），其中模型在推理前被提示生成一个理由而非通用策略。  

### 3.4 其他细节  
在实验中，我们设置 \(N=5\)，即DIP为每个问题生成五个理由。这些理由被进一步发展为草案计划，然后归纳为最终计划用于推理。对于模型参数，我们设置温度为0，Top-P为1（只要模型支持这些选项），以确保确定性和可复现的结果。其他实现和评估细节见附录A。  

## 4 结果与分析  
我们在BBH和LiveBench推理任务上评估了DIP，使用了多种模型家族的LLM和LRM（表1）。DIP优于所有基线，在BBH上所有模型均获得最高准确率，在LiveBench的20个设置中17个取得了最佳结果，展现出强大的泛化能力。  

DIP的性能提升在不同基准上呈现不同模式。在BBH上，相比Z-CoT的改进一致，准确率提升范围为0.58至6.72。在更具挑战性的LiveBench任务上，DIP提升了大多数模型的性能，提升范围为0.5至30.50。特别是，Llama 4 Scout和GPT 4.1 Mini分别获得了30.50和13.00的显著提升。值得注意的是，我们的方法在绝大多数设置中超越了R-CoT和S-CoT。与这些基线仅生成单个草案计划不同，DIP首先探索多个多样化的理由，构建对应的分步计划，然后通过草案计划归纳出最终计划。这种多阶段过程在多种模型类型上均提高了推理准确性。此外，对于复杂任务，DIP帮助Llama 4 Scout等模型更好地遵循输出格式要求，解决了基线提示下的常见失败情况，进一步提升了准确率。  

表2：BBH上的性能（%）。\(\Delta = \text{DIP} - \text{DIP-R}\)。蓝色=提升，红色=下降。  
表3：不同模型在BBH上的性能（%）随理由数量 \(N\) 的变化。对于每个 \(N>1\)，最后一行报告了优于 \(N=1\) 的模型数量。  

## 5 讨论  
由于成本限制，本节所有消融研究仅在每个系列的两个模型上进行。  

#### 理由生成的影响  
为评估理由生成的影响，我们将DIP与消融变体DIP-R进行比较，后者省略了理由生成步骤，直接构建多个草案计划进行归纳。如表2所示，DIP在10个模型中的9个上优于DIP-R。这证实了先提示模型生成多样化理由能够产生更稳健和准确的计划。  

#### 草案计划数量的影响  
我们进一步分析了归纳步骤中使用的草案计划数量 \(N\) 的影响。如表3所示，在大多数设置中，使用多个计划（\(N>1\)）优于 \(N=1\)。虽然最优 \(N\) 因模型和数据集而异，但通常5到7之间能获得最佳结果。这表明适度多样性的草案计划能为有效归纳提供足够信号。然而，一些模型在更高的 \(N\) 值下性能下降（例如，Llama 4 Scout从 \(N=5\) 时的84.46%下降到 \(N=7\) 时的82.38%），这表明过多的理由可能引入干扰归纳过程的噪声。  

来源：Die Mexikanische Königsnatter oder San-Luis-Potosi-Königsnatter ist eine Schlange aus der Familie der Nattern.  
翻译：The Mexican King’s Snake or San Luis Potosi King snake is a snake of the Lantern family.  
选项：（A）修饰词或形容词，（B）数值，（C）否定或反义词，（D）命名实体，（E）遗漏内容，（F）事实  
答案：（D）命名实体  

图2：BBH显著翻译错误检测示例。识别德语到英语翻译中的错误类型。此处，“Nattern”（游蛇科）被错误翻译为“Lantern family”。  

#### 案例分析  
图2展示了使用Llama 4 Scout模型的BBH显著翻译错误检测示例。在这个例子中，“Nattern”（游蛇科）被误译为“Lantern family”，构成命名实体错误。只有我们完整的DIP设置（\(N=5\)）归纳出了一个详细计划，能够对齐科名并系统检查所有错误类型，从而得出正确答案。相比之下，\(N=1\)和DIP-R都生成了通用或不完整的计划，在这个案例上失败。所有其他基线也无法识别正确的错误类型。完整的中间输出和提示见附录（图7至14）。  

表4：BBH上的成本-性能比较。输入令牌衡量提示成本，输出令牌衡量生成成本。对于DIP+SC方法，SC仅应用于最终答案生成步骤。  

#### 计算成本分析  
为评估DIP的改进是源于有效的计划归纳还是仅仅增加了计算量，我们将其与自我一致性（Self-Consistency, SC）（Wang et al., 2022）进行了比较，后者是一种广泛使用的多路径基线。由于成本限制，此分析在Llama 4 Scout和Maverick（最新的开源Llama模型）上进行。表4报告了令牌消耗，重点放在输出令牌上，因为输出令牌的成本通常是输入令牌的约3倍（Together AI, 2025）。  

DIP在成本-性能权衡上显著优于采样基线。我们主要与k=20的SC进行比较，因为先前研究表明性能增益通常在此点后饱和（Wang et al., 2022）。在Llama 4 Scout上，DIP以1,556个输出令牌达到84.46%的准确率，而Z-CoT+SC(k=20)需要7,533个令牌（令牌数减少4.8倍），准确率为84.17%。类似的高效优势也体现在Llama 4 Maverick上：DIP使用7.2倍更少的令牌（1,481 vs. 10,612）达到更高准确率（86.20% vs. 85.68%）。即使计入DIP多阶段提示的总令牌消耗，DIP仍然显著更高效。例如，在Llama 4 Maverick上，DIP总令牌数为2,185，而Z-CoT+SC(k=20)为14,168（令牌数减少6.5倍）。此外，通过仅对最终答案生成步骤应用SC，DIP+SC(k=10)以11,797总令牌达到了我们最高的准确率86.90%，表明多理由归纳与采样是互补的，同时保持了有竞争力的效率。

发散诱导提示：零样本推理的多理由归纳

相似文章

推导提示：一种基于逻辑的增强检索生成改进方法

Strategy-Induct：任务级策略归纳用于指令生成

提示级蒸馏：一种高效推理的非参数化模型微调替代方案

提示引导的多样化策略优化用于LLM推理

从智能体轨迹中诱导推理原语

提交意见反馈