发散诱导提示:零样本推理的多理由归纳

arXiv cs.AI 论文

摘要

发散诱导提示(DIP)通过首先生成多个多样化的理由,将每个理由详细阐述为一个详细计划,然后归纳出最终计划,从而增强零样本推理,其性能优于单一策略提示方法。

arXiv:2602.08028v1 Announce Type: cross 摘要:为了解决标准思维链提示中无引导推理路径的不稳定性,最近的方法通过首先引出一个单一推理策略来引导大语言模型(LLMs)。然而,每个问题仅依赖一种策略仍可能限制在不同任务上的性能。我们提出发散诱导提示(DIP),该框架首先提示LLM为每个问题生成多个多样化的高层理由。然后将每个理由详细阐述为详细的逐步草案计划。最后,将这些草案计划归纳为最终计划。DIP提高了零样本推理的准确性,且不依赖资源密集型的采样。实验表明,DIP优于单一策略提示,证明了多计划归纳在基于提示的推理中的有效性。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:51

# 分而诱导提示:面向零样本推理的多理由归纳法  
来源:https://arxiv.org/html/2602.08028  

陈柏均¹,黄瀚萱²,陈信希¹,³  
¹ 国立台湾大学资讯工程学系,台湾  
² 中央研究院资讯科学研究所,台湾  
³ 国立台湾大学人工智能研究中心 (AINTU),台湾  
[email protected], [email protected], [email protected]  

###### 摘要  
为了应对标准链式思考(Chain-of-Thought)提示中无引导推理路径的不稳定性,近期方法通过首先引出单一推理策略来引导大语言模型(LLMs)。然而,每个问题仅依赖一种策略仍可能限制其在多样化任务上的表现。我们提出**分而诱导提示**(Diverge-to-Induce Prompting, DIP),该框架首先提示LLM为每个问题生成多个多样化、高层级的理由(rationales)。然后,每个理由被详细阐述为分步草案计划。最后,这些草案计划被归纳为最终计划。DIP在不依赖资源密集的采样的前提下,提升了零样本推理的准确性。实验表明,DIP优于单一策略提示法,证明了多计划归纳在基于提示的推理中的有效性。  

---

## 1 引言  
基于提示的推理已成为激发大语言模型(LLMs)逻辑行为的核心范式,尤其在零样本设置中(Wei et al., 2022;Kojima et al., 2022)。一种常见方法是零样本链式思考(CoT)提示,它直接引导模型生成推理链,但推理过程缺乏引导。为应对此限制,近期工作提出了单一策略提示方法,例如**计划与解决提示**(Plan-and-Solve Prompting, Wang et al., 2023a)和**策略链式思考**(Strategic Chain-of-Thought, S-CoT; Wang et al., 2024),这些方法让模型在生成最终答案前先生成一个高层级计划或策略。虽然高效,但这些方法通常每个问题只采用一条路径,依赖模型的初始直觉,可能错过更好的替代方案。其他方法生成多条推理路径并在其中进行选择,例如通过外部投票、重排序或基于采样的聚合(Wang et al., 2022; Zheng et al., 2023; Suzgun and Kalai, 2024),但这些策略需要重复调用模型或额外的选择模块,导致显著的计算开销。  

我们提出**分而诱导提示**(DIP),该框架首先生成多个高层级理由,将每个理由详细阐述为分步草案计划,然后从这些草案计划中归纳出一个最终计划,并用于执行最终推理。受指令归纳(Instruction Induction)研究的启发(Honovich et al., 2023; Chen et al., 2024),DIP使LLM能够通过整合多种视角来综合出一个高质量、实例级的草案计划。实验表明,DIP在大多数评估设置中优于强基线,包括最先进的单一策略提示方法。  

总之,我们的主要贡献有三方面:(1)我们提出了一个多理由归纳框架,为每个问题引出多个高层级理由,使LLM能够整合多种视角,避免单一路径推理的盲区;(2)我们的方法通过多个理由从这些草案计划中归纳出最终计划,不依赖重复采样、投票或外部选择模块;(3)在涵盖多种LLM家族的BBH和LiveBench推理任务上的实验表明,我们的方法在推理准确性上优于最先进的单一路径推理方法。  

参见图1:DIP框架概览。整个过程包括三个主要阶段:发散阶段(Divergent Phase),模型生成多个高层级理由并为每个理由构建草案计划;归纳阶段(Inductive Phase),将所有计划归纳为一个最终计划;推理阶段(Inference Phase),产生最终推理和答案。  

## 2 DIP框架  
DIP包含三个主要阶段:(1)发散阶段,模型生成多个高层级理由并为每个理由构建草案计划;(2)归纳阶段,将这些草案计划整合为最终计划;(3)推理阶段,产生最终推理和答案。图1说明了该过程,完整的提示模板见附录图3–6,其中涵盖了理由生成、草案计划构建、归纳和答案生成的模板。  

### 2.1 理由生成  
给定一个问题 \(x\),模型在一次调用中生成一组 \(N\) 个高层级理由:  
\[ R = \{r_1, r_2, ..., r_N\} = LLM(x) \]  
每个 \(r_i\) 表示用于求解该问题的一个独特的高层级理由。  

### 2.2 草案计划构建  
每个理由 \(r_i\) 由LLM扩展为对应的分步草案计划 \(p_i\)。所有计划通过一次模型调用生成,输入为 \(x\) 和集合 \(R\),得到:  
\[ P = \{p_1, p_2, ..., p_N\} = LLM(x, R) \]  
其中每个 \(p_i\) 对应 \(r_i\)。  

### 2.3 草案计划归纳  
归纳阶段从草案计划集合 \(P\) 中归纳出一个融合了多种视角的最终计划:  
\[ P_{\text{DIP}} = LLM(x, P) \]  

### 2.4 最终推理  
归纳得到的最终计划 \(P_{\text{DIP}}\) 被用于回答原始问题:  
\[ (c, y^*) = LLM(P_{\text{DIP}}, x) \]  
其中 \(c\) 表示链式思考推理,\(y^*\) 是最终预测答案。  

表1:不同模型在Z-CoT、R-CoT、S-CoT及我们方法下的零样本性能(%),以及差值 \(\Delta\)(Our - Z-CoT)。蓝色=提升,红色=下降。  

## 3 实验设置  
### 3.1 模型  
我们评估了DIP在多种LLM和大型推理模型(LRM)上的表现,涵盖开源和闭源系统。我们的实验跨越六个主要家族:LLaMA、Mistral、Gemini、GPT、Grok 和 o系列,覆盖不同的模型规模和能力。特别地,我们的评估包括具有扩展推理能力的LRM(o4 Mini 和 Grok 3 Mini),它们采用测试时计算来增强推理。完整的模型名称、版本和配置细节见附录A。  

### 3.2 数据集  
我们使用BIG-Bench Hard(BBH)基准(Suzgun et al., 2022),这是一套从BIG-Bench集合(Srivastava et al., 2022)中精选的任务集,当前LLM难以达到人类平均水平。我们还使用了LiveBench(White et al., 2025)中的推理型任务,这是一个具有挑战性且受污染控制的基准,包含多样化的真实世界问题,用于评估模型的高精度推理能力。  

### 3.3 基线方法  
#### Z-CoT  
我们应用零样本链式思考(Z-CoT)提示(Kojima et al., 2022),直接提示模型生成中间推理步骤,不提供示例。  

#### S-CoT  
自动策略链式思考(S-CoT)由Wang等人(2024)提出,是一种最先进的CoT提示基线。它首先提示模型识别一个高层级的问题解决策略,然后用该策略指导逐步推理。  

#### R-CoT  
我们设计了一个S-CoT的变体,称为理由链式思考(R-CoT),其中模型在推理前被提示生成一个理由而非通用策略。  

### 3.4 其他细节  
在实验中,我们设置 \(N=5\),即DIP为每个问题生成五个理由。这些理由被进一步发展为草案计划,然后归纳为最终计划用于推理。对于模型参数,我们设置温度为0,Top-P为1(只要模型支持这些选项),以确保确定性和可复现的结果。其他实现和评估细节见附录A。  

## 4 结果与分析  
我们在BBH和LiveBench推理任务上评估了DIP,使用了多种模型家族的LLM和LRM(表1)。DIP优于所有基线,在BBH上所有模型均获得最高准确率,在LiveBench的20个设置中17个取得了最佳结果,展现出强大的泛化能力。  

DIP的性能提升在不同基准上呈现不同模式。在BBH上,相比Z-CoT的改进一致,准确率提升范围为0.58至6.72。在更具挑战性的LiveBench任务上,DIP提升了大多数模型的性能,提升范围为0.5至30.50。特别是,Llama 4 Scout和GPT 4.1 Mini分别获得了30.50和13.00的显著提升。值得注意的是,我们的方法在绝大多数设置中超越了R-CoT和S-CoT。与这些基线仅生成单个草案计划不同,DIP首先探索多个多样化的理由,构建对应的分步计划,然后通过草案计划归纳出最终计划。这种多阶段过程在多种模型类型上均提高了推理准确性。此外,对于复杂任务,DIP帮助Llama 4 Scout等模型更好地遵循输出格式要求,解决了基线提示下的常见失败情况,进一步提升了准确率。  

表2:BBH上的性能(%)。\(\Delta = \text{DIP} - \text{DIP-R}\)。蓝色=提升,红色=下降。  
表3:不同模型在BBH上的性能(%)随理由数量 \(N\) 的变化。对于每个 \(N>1\),最后一行报告了优于 \(N=1\) 的模型数量。  

## 5 讨论  
由于成本限制,本节所有消融研究仅在每个系列的两个模型上进行。  

#### 理由生成的影响  
为评估理由生成的影响,我们将DIP与消融变体DIP-R进行比较,后者省略了理由生成步骤,直接构建多个草案计划进行归纳。如表2所示,DIP在10个模型中的9个上优于DIP-R。这证实了先提示模型生成多样化理由能够产生更稳健和准确的计划。  

#### 草案计划数量的影响  
我们进一步分析了归纳步骤中使用的草案计划数量 \(N\) 的影响。如表3所示,在大多数设置中,使用多个计划(\(N>1\))优于 \(N=1\)。虽然最优 \(N\) 因模型和数据集而异,但通常5到7之间能获得最佳结果。这表明适度多样性的草案计划能为有效归纳提供足够信号。然而,一些模型在更高的 \(N\) 值下性能下降(例如,Llama 4 Scout从 \(N=5\) 时的84.46%下降到 \(N=7\) 时的82.38%),这表明过多的理由可能引入干扰归纳过程的噪声。  

来源:Die Mexikanische Königsnatter oder San-Luis-Potosi-Königsnatter ist eine Schlange aus der Familie der Nattern.  
翻译:The Mexican King’s Snake or San Luis Potosi King snake is a snake of the Lantern family.  
选项:(A)修饰词或形容词,(B)数值,(C)否定或反义词,(D)命名实体,(E)遗漏内容,(F)事实  
答案:(D)命名实体  

图2:BBH显著翻译错误检测示例。识别德语到英语翻译中的错误类型。此处,“Nattern”(游蛇科)被错误翻译为“Lantern family”。  

#### 案例分析  
图2展示了使用Llama 4 Scout模型的BBH显著翻译错误检测示例。在这个例子中,“Nattern”(游蛇科)被误译为“Lantern family”,构成命名实体错误。只有我们完整的DIP设置(\(N=5\))归纳出了一个详细计划,能够对齐科名并系统检查所有错误类型,从而得出正确答案。相比之下,\(N=1\)和DIP-R都生成了通用或不完整的计划,在这个案例上失败。所有其他基线也无法识别正确的错误类型。完整的中间输出和提示见附录(图7至14)。  

表4:BBH上的成本-性能比较。输入令牌衡量提示成本,输出令牌衡量生成成本。对于DIP+SC方法,SC仅应用于最终答案生成步骤。  

#### 计算成本分析  
为评估DIP的改进是源于有效的计划归纳还是仅仅增加了计算量,我们将其与自我一致性(Self-Consistency, SC)(Wang et al., 2022)进行了比较,后者是一种广泛使用的多路径基线。由于成本限制,此分析在Llama 4 Scout和Maverick(最新的开源Llama模型)上进行。表4报告了令牌消耗,重点放在输出令牌上,因为输出令牌的成本通常是输入令牌的约3倍(Together AI, 2025)。  

DIP在成本-性能权衡上显著优于采样基线。我们主要与k=20的SC进行比较,因为先前研究表明性能增益通常在此点后饱和(Wang et al., 2022)。在Llama 4 Scout上,DIP以1,556个输出令牌达到84.46%的准确率,而Z-CoT+SC(k=20)需要7,533个令牌(令牌数减少4.8倍),准确率为84.17%。类似的高效优势也体现在Llama 4 Maverick上:DIP使用7.2倍更少的令牌(1,481 vs. 10,612)达到更高准确率(86.20% vs. 85.68%)。即使计入DIP多阶段提示的总令牌消耗,DIP仍然显著更高效。例如,在Llama 4 Maverick上,DIP总令牌数为2,185,而Z-CoT+SC(k=20)为14,168(令牌数减少6.5倍)。此外,通过仅对最终答案生成步骤应用SC,DIP+SC(k=10)以11,797总令牌达到了我们最高的准确率86.90%,表明多理由归纳与采样是互补的,同时保持了有竞争力的效率。

相似文章

Strategy-Induct:任务级策略归纳用于指令生成

arXiv cs.CL

提出Strategy-Induct框架,该框架仅从示例问题中归纳任务级指令,无需标注答案,首先为每个问题生成显式推理策略,然后利用问题-策略对来归纳指令。该方法在仅包含问题的场景下,跨多个任务和模型规模均优于现有方法。

提示引导的多样化策略优化用于LLM推理

arXiv cs.CL

本文介绍了提示引导的多样化策略优化(HDPO),这是一个两阶段强化学习框架,鼓励LLMs首先生成多个候选解决方案大纲(提示),然后选择最可靠的一个进行详细推理,从而提升推理的多样性和可靠性。

从智能体轨迹中诱导推理原语

arXiv cs.AI

介绍推理原语诱导(Reasoning Primitive Induction)方法,该方法从成功的ReAct轨迹中挖掘,将重复出现的推理动作聚类为类型化的伪工具,在基准测试上比原始智能体高出数十个百分点。