标签
介绍了SPO,一种用于自动提示优化的随机搜索框架,包含三种策略,其中包括SAGE,一种智能体引导的多智能体流水线。在基准测试上进行了评估,并部署在心理健康聊天机器人上,通过持续优化显示出在留存率方面的改进。
微软推出SkillOpt,一种将智能体技能文档像神经网络一样训练的方法,通过epoch、batch、学习率和验证集来进行优化,但不修改模型权重。在多项基准测试中取得最佳结果,可跨模型和工具迁移。
介绍 Prompt Optimizer,一个开源工具,帮助用户优化、测试和复用提示词,支持多平台部署,将提示词从一次性使用转变为可反复调用的资产。
FAPO是一个用于多步骤LLM流水线的全自动提示优化框架,结合了提示编辑和结构变化。在18次对比中,它在15次中优于GEPA基线,在安全任务上收益高达+33.8个百分点。
本文提出了GTBP,一种用于多LLM智能体系统中上下文自适应的基于图的反向传播框架,它通过理论收敛保证改进了提示优化,并在基准测试中优于现有方法。
APEX 引入了一种用于自动提示优化的动态数据选择策略,将数据集分层划分为简单、困难和混合三个层级,以提高数据效率,在多个基准测试中相对于初始提示取得了显著的性能提升。
LEVI 是一个开源的类 AlphaEvolve 系统,可在本地 Qwen3-30B 上运行,提供代码和提示优化,成本降低高达 35 倍,性能优于现有框架。
介绍了RECAP,一个用于在主动适应场景下评估提示持续学习能力的基准。结果表明,现有提示优化方法在该场景下表现不佳,亟需新方法。
CRAFT 是一种帕累托前沿提示优化器,通过使用 NSGA-II 和预算感知验证,在准确率-成本权衡前沿上维持多样化的提示种群,从而联合优化准确率与 token 成本,同时避免加权求和方法所导致的"标量化坍塌"问题。
SePO(自进化提示优化)提出了一种自指涉提示智能体,通过进化搜索同时优化任务智能体的系统提示和自身的系统提示。在包括 AIME'25、ARC-AGI-1 和 GPQA 在内的五个基准测试中,SePO 的表现优于 Manual-CoT、TextGrad 和 MetaSPO。
提出Demo2Reward,一种针对VLM奖励模型的测试时提示优化技术,利用少量专家演示,显著减少误报,并在无需额外模型训练的情况下改进机器人策略学习。
本文提出为LLM学习评估技能,以自动化评分任务的评分标准构建,达到与专家编写的评分标准相当的性能,且无需人工编写的示例。
介绍了eXTC,一个具有三个渐进阶段的文本分类器:结构化提示优化以学习自然语言规则手册、将推理蒸馏到紧凑的语言模型中、以及强化学习扩展推理,实现了强大的性能和可解释性。
本文对自动化提示优化进行了基于因果启发的分析,涵盖多种框架、大语言模型和任务,识别出特定编辑类型(如复杂度增加型、元指令型)根据任务特征具有系统的负面或正面效应,从而解释了泛化失败的原因。
SPEAR 是一个代码增强的智能体提示优化器,它利用 Python 沙箱进行结构错误分析,在包括工业裁判任务、BBH 和 GSM8K 在内的多个 LLM 评估套件上取得了最先进的性能。
微软研究院推出了SkillOpt,该方法将智能体技能文档视为可训练的外部状态,利用优化器模型进行受限编辑,并通过预留集进行验证。该方案在52个评估单元中取得最佳或并列结果,在GPT-5.5上准确率提升超过23个百分点,且零额外推理成本,技能可迁移。
本文识别了在使用文本梯度进行LLM裁判的多目标提示优化中的两种失败模式:优化过程中的梯度稀释和推理过程中的指令干扰,表明联合梯度处理会丢失特定于标准的信息。
介绍了反思式提示调优(RPT),一种利用LLM函数调用,基于系统性错误模式迭代诊断和修改提示的框架,从而提升推理任务性能和校准能力。
CANTANTE 是一个开源框架,通过将系统级奖励转换为每个智能体的更新信号来解决多智能体系统中的信用分配问题,在编程和数学推理基准测试上优于基于 DSPy 的基线。
CANTANTE 引入了一种对比信用分配方法,通过将全局奖励分解为每个智能体的信号,优化多智能体 LLM 系统,从而实现自动化提示调优。在编程、数学和检索基准测试中,它超越了基线方法,在不增加推理成本的情况下实现了最高 +18.9 分的提升。