自监督提示优化

Papers with Code Trending 论文

摘要

本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。

精心设计的提示词对于提升大语言模型(LLMs)的推理能力以及使其输出与各领域任务需求对齐至关重要。然而,手动设计提示词需要专业知识并反复实验。虽然现有的提示词优化方法旨在实现自动化,但它们严重依赖外部参考(如标准答案或人工标注),这限制了其在真实场景中的应用,因为这些数据往往难以获取或成本高昂。为此,我们提出了自监督提示优化(SPO),一种经济高效的框架,能够在无需外部参考的情况下,为封闭式和开放式任务发现有效的提示词。基于提示词质量直接体现在LLM输出中、且LLM能够有效评估任务遵循情况的观察,我们仅从输出对比中获取评估和优化信号。具体而言,SPO通过LLM评估器进行成对输出对比来筛选优质提示词,随后由LLM优化器将输出与任务要求对齐。大量实验表明,SPO优于最先进的提示词优化方法,在显著更低成本(例如,仅为现有方法的1.1%至5.6%)和更少样本(例如,三个样本)的情况下,取得了相当或更优的结果。代码已开源:https://github.com/geekan/MetaGPT。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:59

论文页面 - 自监督提示词优化

来源:https://huggingface.co/papers/2502.06855

摘要

一种自监督框架,通过无需外部参考地评估 LLM 输出来优化封闭式和开放式任务的提示词,从而降低成本并减少所需数据。

精心设计的提示词对于提升大语言模型(LLMs)的推理能力以及使其输出与各领域任务要求保持一致至关重要。然而,手动设计提示词需要专业知识并反复实验。虽然现有的提示词优化(prompt optimization)方法旨在自动化这一过程,但它们严重依赖外部参考(如真实标签或人工标注),这限制了其在缺乏此类数据或获取成本高昂的实际场景中的应用。为此,我们提出了自监督提示词优化(Self-Supervised Prompt Optimization, SPO),一种经济高效的框架,能够在无需外部参考的情况下为封闭式和开放式任务发现有效的提示词。基于以下观察:提示词质量直接体现在 LLM 输出中,且 LLM 能够有效评估输出是否符合任务要求,我们纯粹通过输出比较来推导评估和优化信号。具体而言,SPO 首先通过 LLM 评估器(LLM evaluator)进行成对输出比较来筛选优质提示词,然后利用 LLM 优化器(LLM optimizer)使输出与任务要求对齐。大量实验表明,SPO 优于最先进的提示词优化方法,以显著更低的成本(例如,仅为现有方法的 1.1% 至 5.6%)和更少的样本(例如,仅三个样本)取得了相当或更优的结果。代码可在 https://github.com/geekan/MetaGPT 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2502.06855) 查看 PDF (https://arxiv.org/pdf/2502.06855) GitHub 67.8k auto (https://github.com/geekan/metagpt) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2502.06855)

在您的智能体中获取这篇论文:

hf papers read 2502.06855

还没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2502.06855 即可从此页面链接。

引用该论文的数据集 0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2502.06855 即可从此页面链接。

引用该论文的 Spaces 4

包含该论文的收藏集 16

浏览包含该论文的 16 个收藏集 (https://huggingface.co/collections?paper=2502.06855)

相似文章

SePO:用于系统提示优化的自进化提示智能体

arXiv cs.CL

SePO(自进化提示优化)提出了一种自指涉提示智能体,通过进化搜索同时优化任务智能体的系统提示和自身的系统提示。在包括 AIME'25、ARC-AGI-1 和 GPQA 在内的五个基准测试中,SePO 的表现优于 Manual-CoT、TextGrad 和 MetaSPO。

SAGE:基于智能体引导的随机提示优化

arXiv cs.CL

介绍了SPO,一种用于自动提示优化的随机搜索框架,包含三种策略,其中包括SAGE,一种智能体引导的多智能体流水线。在基准测试上进行了评估,并部署在心理健康聊天机器人上,通过持续优化显示出在留存率方面的改进。

SPEAR:代码增强的智能体提示优化

arXiv cs.CL

SPEAR 是一个代码增强的智能体提示优化器,它利用 Python 沙箱进行结构错误分析,在包括工业裁判任务、BBH 和 GSM8K 在内的多个 LLM 评估套件上取得了最先进的性能。

FAPO: 多步骤LLM流水线的全自动提示优化

Hugging Face Daily Papers

FAPO是一个用于多步骤LLM流水线的全自动提示优化框架,结合了提示编辑和结构变化。在18次对比中,它在15次中优于GEPA基线,在安全任务上收益高达+33.8个百分点。