提示优化为何有效，为何有时无效：基于因果启发的编辑级分析

arXiv cs.CL 2026/05/27 04:00 论文

prompt-optimization causal-inference llm nlp task-analysis generalization automated-prompting

摘要

本文对自动化提示优化进行了基于因果启发的分析，涵盖多种框架、大语言模型和任务，识别出特定编辑类型（如复杂度增加型、元指令型）根据任务特征具有系统的负面或正面效应，从而解释了泛化失败的原因。

arXiv:2605.26655v1 公告类型：新摘要：自动化提示优化方法（例如 DSpy、TextGrad）可以显著提升大语言模型（LLM）的性能，但其在不同任务上的泛化能力仍然不佳。在实践中，优化后的提示在一个基准上的优势往往无法迁移到另一个基准，即使切换不同的 LLM 骨干网络，这一局限性依然存在。为了探究提示性能中尚未充分探索的异质性来源，我们基于因果推断启发，对跨多种优化框架、LLM 骨干网络和 NLP 基准的优化提示进行了观察性分析。为实现这一目标，我们采用了基于倾向调整的关联分析，辅以多种互补的提示编辑表示，从而识别出一致的任务条件编辑模式。我们发现，复杂度增加型和元指令型编辑与数学和多跳推理性能呈负相关，而逐步推理和元认知型编辑则能提升逻辑和顺序推理任务。这些效应在认知负荷标注、表层文本特征和编辑主题分析中表现稳健，并可跨优化框架泛化。总体而言，这些结果表明提示优化失败源于编辑家族与任务特征之间的系统性交互，而非随机的优化伪影，从而提供了优化器行为的特征级描述，并推动了未来任务条件优化器的设计。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:08

# 为什么提示优化有效，又为何有时失效——一种因果启发的编辑层级分析
来源：https://arxiv.org/html/2605.26655
Shuzhi Gong¹, Hechuan Wen², ¹墨尔本大学，墨尔本，维多利亚，澳大利亚 ²昆士兰大学，布里斯班，昆士兰，澳大利亚 shuzhi@unimelb\.edu\.au h\.wen@uq\.edu\.au

###### 摘要

自动化提示优化方法（如 DSpy、TextGrad）能显著提升大语言模型（LLM）的性能，但其在不同任务间的泛化能力仍显不足。实践中，在一个基准上表现出色的优化提示往往无法迁移到另一个基准，且即便切换不同的 LLM 骨干网络，这一局限性依然存在。为探究提示性能异质性中尚未被充分研究的根源，我们采用因果推断启发的观察性分析方法，对一组多样化的优化框架、LLM 骨干网络和自然语言处理（NLP）基准中的优化提示进行了研究。为此，我们构建了基于倾向性调整的关联分析，并结合提示编辑的多种互补表征，识别出与任务条件一致的编辑模式。我们发现，增加复杂性和元指令类的编辑与数学及多跳推理性能呈负相关，而逐步和元认知类的编辑则能改善逻辑和序列推理任务。这些效应在认知负荷标注、表层文本特征和编辑模式分析中保持一致，并能跨优化框架泛化。总体而言，这些结果表明，提示优化的失败源于编辑类型与任务特征之间的系统性交互，而非随机的优化产物，从而提供了优化器行为的特征级描述，并为未来面向任务的优化器设计提供了动力。

为什么提示优化有效，又为何有时失效——一种因果启发的编辑层级分析

Shuzhi Gong¹，Hechuan Wen²††thanks:通讯作者。，¹墨尔本大学，墨尔本，维多利亚，澳大利亚 ²昆士兰大学，布里斯班，昆士兰，澳大利亚
shuzhi@unimelb\.edu\.au
h\.wen@uq\.edu\.au

## 1 引言

提示优化已日益成为大语言模型（LLM）参数高效微调的一种实用替代方案。不同于更新模型权重，TextGrad、GEPA 等最新框架自动搜索提示空间以提升下游任务性能。这些方法因其轻量化、模块化且与 LLM 及智能体应用、检索增强工作流直接兼容，对现代 LLM 系统尤为具有吸引力。

尽管取得了实证成功，提示优化器在不同任务和模型骨干网络上的表现往往不稳定。实践中，能提升某一基准的提示修改常常无法迁移到另一基准，且在逻辑或序列推理任务上表现良好的优化器，可能在数学或多跳推理基准上显著降低性能。重要的是，这一模式在我们跨多个优化框架和多种 LLM 骨干网络（包括 GPT-5.2、GPT-4o、Qwen3-32B 和 Deepseek 模型）的实验中一致出现。这种不稳定性引发了一个根本性问题：现代优化器实际上在学习应用哪种类型的提示编辑？以及为什么某些编辑模式对某些任务类型有帮助，而对其他任务类型却有害？

现有研究主要从聚合基准层面研究提示优化。先前的研究分析了优化器的成功率、优化动态或嵌入层面的优化方向，但并未深入探讨导致优化器失败的编辑层面行为。因此，当前的评估通常揭示优化*是否*成功，但并未说明哪些提示修改在不同任务设置下系统性地促进了改进或导致了退化。然而，理解这些编辑层面的行为对于诊断和优化器设计都至关重要：两个优化器可能通过完全不同的编辑策略实现相似的平均增益，而看似有益的提示修改可能与不同的推理任务产生不同交互。

参照图注
图 1：我们用于提示优化器行为的多视角探测框架概览。

在本工作中，我们通过一种观察性的多视角分析来研究提示优化器行为，重点关注优化器引发的提示编辑，如图 1 所示。我们不将优化后的提示视为不可分割的工件，而是分析真实优化轨迹中连续的提示修订，并考察不同编辑类型与下游任务组性能变化之间的关联。

为减少对任何单一提示编辑表征的依赖，我们通过三个互补视角来探测优化器行为：(1) GPT-4o 标注的认知和指令特征，(2) 确定性的表层文本统计量，以及 (3) 从连续提示修订中提取的字面文本差异模式。随后，这些互补表征被整合到一个基于倾向性调整的关联分析框架中，以刻画不同推理任务上优化器行为的异质性。

在方法上，我们的分析采用了一个因果推断启发的观察性框架。我们使用倾向性调整的关联估计来减少由先前提示状态差异引起的测量选择偏差，同时明确避免做出强烈的因果断言。由于该分析涉及许多同时进行的特征-任务比较，我们将统计上稳健的、经错误发现率（FDR）校正后仍然成立的发现与那些提供佐证性但非确证性证据的探索性方向模式区分开来。因此，在整个论文中，我们使用统一的两级证据层级来组织结果。**一级**指代经 Benjamini–Hochberg 错误发现率校正后仍然显著的关联。**二级**指代跨多种表征或框架复制但未完全通过多重检验校正的方向一致的佐证模式。

在约两万个真实世界提示优化的（提示，问题，正确性）元组中，我们观察到跨任务组的一致编辑层级异质性。具体而言，增加复杂性和元指令类的编辑往往与数学和多跳推理性能负相关，而元认知和步骤结构类的编辑则与逻辑和序列推理任务正相关。其中一些关联在错误发现率校正后仍然显著，而其他关联则在多个独立的提示表征中一致出现。

我们的主要贡献总结如下：

- • 我们在多个优化框架、LLM 骨干网络和推理任务组上，提出了一种针对提示优化器行为的观察性编辑层级分析。
- • 我们识别出提示优化器引发的编辑与下游任务性能之间统计上稳健的异质性关联。
- • 我们提供证据表明，提示优化的失败并非纯粹随机，而是与编辑和基准特定特征之间的系统性交互相关联，这为未来面向任务的优化器设计提供了动力。

## 2 相关工作

#### **自动化提示优化**。

自动化提示优化将提示视为一个可学习的变量，以最大化任务性能。早期工作学习软提示或搜索离散的提示词元/模板，用于少样本适应和探测。后来的黑盒方法直接优化自然语言指令，包括指令生成与排序、无梯度编辑搜索、基于强化学习的提示编辑以及文本梯度修订。更近期的系统使用 LLM 作为优化器或搜索算子，通过自然语言提议选择、进化/自引用变异以及程序级提示编译来实现。尽管优化机制不同，这些方法在我们的设置中都收敛到一个共同的实证失败模式：在数学和多跳任务上持续的性能退化。这种收敛性促使我们进行提示变化的特征级诊断，而非特定方法分析。

#### **提示敏感性与格式效应**。

另一条互补的研究方向探讨非语义的提示属性如何影响 LLM 性能。Zhao 等人 (2021) 表明少样本校准能显著减少格式引发的偏差，而 Lu 等人 (2022) 发现示例顺序可导致高达 30 个点的准确率变化。相关研究进一步表明，上下文学习更多地依赖于标签空间、输入分布和序列格式，而非精确的输入-标签映射；模型可能对指令语义不敏感；答案表面形式会扭曲基于似然性的评分；以及微小的格式选择可能引发巨大的性能波动。这些发现共同表明，提示的表层属性独立于语义内容而发挥作用。我们将这一视角从孤立的格式变化扩展到优化器轨迹，考察连续优化器引发的编辑及其随任务类型变化的性能效应。"硬币翻转"论文使用基于方差分析的方法识别优化成功的小粒度运行条件；我们则通过特征级和编辑级的因果分析，在不同任务类型间对此进行补充。

#### **NLP 中的因果推断**。

因果推断在 NLP 中已被越来越多地用于去偏、模型行为分析以及基于文本的因果估计。近期 LLM 时代的工作进一步将 LLM 既作为因果分析的对象，也作为因果发现或效应估计的工具。例如，近期研究使用 LLM 从非结构化文本中估计因果效应、构建因果图并进行自然语言反事实推理、生成或匹配反事实文本以实现忠实模型解释，以及评估 LLM 的形式化因果和反事实推理能力。异质性处理效应文献为跨子群体的条件因果效应提供了统计框架，而双重机器学习框架则通过灵活的机器学习模型实现了对干扰项进行调整的效应估计。我们调整逆概率权重方法 (IPTW) 以应用于提示优化轨迹，其中处理是优化器引发的提示特征变化，混淆变量是之前的提示状态。这一框架将因果效应估计工具扩展到优化器行为分析，而我们的证据层级设计则将 FDR 控制的关联与探索性佐证区分开来。

#### **最接近的先前工作**。

CPO 将双重机器学习应用于整个提示的嵌入，以估计优化效应，而我们的重点是诊断性和特征级：我们分析可解释的提示编辑如何与不同任务组的收益或损失相关联。虽然 CausalNLP 综述回顾了“文本作为处理”的方法，但我们将其视角实例化到优化器编辑模式层面。近期关于基于嵌入的因果推断的工作表明，密集表征可以减少选择偏差；相比之下，我们强调可解释的表层特征，以支持直接比较。

提示优化为何有效，为何有时无效：基于因果启发的编辑级分析

相似文章

自监督提示优化

单一提示不够：指令敏感性削弱嵌入模型评估

结构化提示优化与强化学习结合实现复杂文本的全局与局部可解释性

PromptAudit：审计基于LLM的漏洞检测中的提示敏感性

探究提示KV缓存：何处变得可舍弃

提交意见反馈