自监督提示优化
摘要
本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。
查看缓存全文
缓存时间: 2026/05/08 08:59
论文页面 - 自监督提示词优化
来源:https://huggingface.co/papers/2502.06855
摘要
一种自监督框架,通过无需外部参考地评估 LLM 输出来优化封闭式和开放式任务的提示词,从而降低成本并减少所需数据。
精心设计的提示词对于提升大语言模型(LLMs)的推理能力以及使其输出与各领域任务要求保持一致至关重要。然而,手动设计提示词需要专业知识并反复实验。虽然现有的提示词优化(prompt optimization)方法旨在自动化这一过程,但它们严重依赖外部参考(如真实标签或人工标注),这限制了其在缺乏此类数据或获取成本高昂的实际场景中的应用。为此,我们提出了自监督提示词优化(Self-Supervised Prompt Optimization, SPO),一种经济高效的框架,能够在无需外部参考的情况下为封闭式和开放式任务发现有效的提示词。基于以下观察:提示词质量直接体现在 LLM 输出中,且 LLM 能够有效评估输出是否符合任务要求,我们纯粹通过输出比较来推导评估和优化信号。具体而言,SPO 首先通过 LLM 评估器(LLM evaluator)进行成对输出比较来筛选优质提示词,然后利用 LLM 优化器(LLM optimizer)使输出与任务要求对齐。大量实验表明,SPO 优于最先进的提示词优化方法,以显著更低的成本(例如,仅为现有方法的 1.1% 至 5.6%)和更少的样本(例如,仅三个样本)取得了相当或更优的结果。代码可在 https://github.com/geekan/MetaGPT 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2502.06855) 查看 PDF (https://arxiv.org/pdf/2502.06855) GitHub 67.8k auto (https://github.com/geekan/metagpt) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2502.06855)
在您的智能体中获取这篇论文:
hf papers read 2502.06855
还没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2502.06855 即可从此页面链接。
引用该论文的数据集 0
暂无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2502.06855 即可从此页面链接。
引用该论文的 Spaces 4
包含该论文的收藏集 16
浏览包含该论文的 16 个收藏集 (https://huggingface.co/collections?paper=2502.06855)
相似文章
SePO:用于系统提示优化的自进化提示智能体
SePO(自进化提示优化)提出了一种自指涉提示智能体,通过进化搜索同时优化任务智能体的系统提示和自身的系统提示。在包括 AIME'25、ARC-AGI-1 和 GPQA 在内的五个基准测试中,SePO 的表现优于 Manual-CoT、TextGrad 和 MetaSPO。
SAGE:基于智能体引导的随机提示优化
介绍了SPO,一种用于自动提示优化的随机搜索框架,包含三种策略,其中包括SAGE,一种智能体引导的多智能体流水线。在基准测试上进行了评估,并部署在心理健康聊天机器人上,通过持续优化显示出在留存率方面的改进。
提示优化为何有效,为何有时无效:基于因果启发的编辑级分析
本文对自动化提示优化进行了基于因果启发的分析,涵盖多种框架、大语言模型和任务,识别出特定编辑类型(如复杂度增加型、元指令型)根据任务特征具有系统的负面或正面效应,从而解释了泛化失败的原因。
SPEAR:代码增强的智能体提示优化
SPEAR 是一个代码增强的智能体提示优化器,它利用 Python 沙箱进行结构错误分析,在包括工业裁判任务、BBH 和 GSM8K 在内的多个 LLM 评估套件上取得了最先进的性能。
FAPO: 多步骤LLM流水线的全自动提示优化
FAPO是一个用于多步骤LLM流水线的全自动提示优化框架,结合了提示编辑和结构变化。在18次对比中,它在15次中优于GEPA基线,在安全任务上收益高达+33.8个百分点。