prompt-optimization

#prompt-optimization

SAGE：基于智能体引导的随机提示优化

arXiv cs.CL ↗ · 2026-06-18 缓存

介绍了SPO，一种用于自动提示优化的随机搜索框架，包含三种策略，其中包括SAGE，一种智能体引导的多智能体流水线。在基准测试上进行了评估，并部署在心理健康聊天机器人上，通过持续优化显示出在留存率方面的改进。

0 人收藏 0 人点赞

#prompt-optimization

@NFTCPS: 微软搞了个东西叫 SkillOpt，思路挺野：把 agent 的技能文档当成神经网络一样来训练，有 epoch、batch、学习率、验证集，但一根模型权重都不碰。它牛在哪？我给你拆三点：训练只改一份 skill 文档，新的改动必须在验…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

微软推出SkillOpt，一种将智能体技能文档像神经网络一样训练的方法，通过epoch、batch、学习率和验证集来进行优化，但不修改模型权重。在多项基准测试中取得最佳结果，可跨模型和工具迁移。

0 人收藏 0 人点赞

#prompt-optimization

@denziideng: 才发现：提示词原来是这么写的！把你的提示词从“随便写写”变成专业可复用资产每次用 AI 写东西、生成图片、做分析，提示词随便一扔，效果时好时坏，太折腾人了…… 现在有了这个工具，能一键优化提示词，自动测试、对比、迭代，还能永久保存成可复…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

介绍 Prompt Optimizer，一个开源工具，帮助用户优化、测试和复用提示词，支持多平台部署，将提示词从一次性使用转变为可反复调用的资产。

0 人收藏 0 人点赞

#prompt-optimization

FAPO: 多步骤LLM流水线的全自动提示优化

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

FAPO是一个用于多步骤LLM流水线的全自动提示优化框架，结合了提示编辑和结构变化。在18次对比中，它在15次中优于GEPA基线，在安全任务上收益高达+33.8个百分点。

0 人收藏 0 人点赞

#prompt-optimization

面向多LLM智能体系统上下文自适应的基于图的目标反向传播

arXiv cs.LG ↗ · 2026-06-15 缓存

本文提出了GTBP，一种用于多LLM智能体系统中上下文自适应的基于图的反向传播框架，它通过理论收敛保证改进了提示优化，并在基准测试中优于现有方法。

0 人收藏 0 人点赞

#prompt-optimization

APEX：具有动态数据选择的自动提示工程专家

arXiv cs.CL ↗ · 2026-06-11 缓存

APEX 引入了一种用于自动提示优化的动态数据选择策略，将数据集分层划分为简单、困难和混合三个层级，以提高数据效率，在多个基准测试中相对于初始提示取得了显著的性能提升。

0 人收藏 0 人点赞

#prompt-optimization

Levi：在本地 QWEN 30B 上运行 AlphaEvolve

Reddit r/LocalLLaMA ↗ · 2026-06-08

LEVI 是一个开源的类 AlphaEvolve 系统，可在本地 Qwen3-30B 上运行，提供代码和提示优化，成本降低高达 35 倍，性能优于现有框架。

0 人收藏 0 人点赞

#prompt-optimization

RECAP：面向提示持续适应性的回归评估基准

arXiv cs.LG ↗ · 2026-06-08 缓存

介绍了RECAP，一个用于在主动适应场景下评估提示持续学习能力的基准。结果表明，现有提示优化方法在该场景下表现不佳，亟需新方法。

0 人收藏 0 人点赞

#prompt-optimization

CRAFT：提示词的成本感知精化与前端感知调优

arXiv cs.CL ↗ · 2026-06-04 缓存

CRAFT 是一种帕累托前沿提示优化器，通过使用 NSGA-II 和预算感知验证，在准确率-成本权衡前沿上维持多样化的提示种群，从而联合优化准确率与 token 成本，同时避免加权求和方法所导致的"标量化坍塌"问题。

0 人收藏 0 人点赞

#prompt-optimization

SePO：用于系统提示优化的自进化提示智能体

arXiv cs.CL ↗ · 2026-06-04 缓存

SePO（自进化提示优化）提出了一种自指涉提示智能体，通过进化搜索同时优化任务智能体的系统提示和自身的系统提示。在包括 AIME'25、ARC-AGI-1 和 GPQA 在内的五个基准测试中，SePO 的表现优于 Manual-CoT、TextGrad 和 MetaSPO。

0 人收藏 0 人点赞

#prompt-optimization

从演示到奖励：VLM奖励模型的测试时提示优化

arXiv cs.LG ↗ · 2026-06-02 缓存

提出Demo2Reward，一种针对VLM奖励模型的测试时提示优化技术，利用少量专家演示，显著减少误报，并在无需额外模型训练的情况下改进机器人策略学习。

0 人收藏 0 人点赞

#prompt-optimization

基于LLM的自动化评分中可学习的评估技能：通过迭代优化构建评分标准

arXiv cs.CL ↗ · 2026-05-29 缓存

本文提出为LLM学习评估技能，以自动化评分任务的评分标准构建，达到与专家编写的评分标准相当的性能，且无需人工编写的示例。

0 人收藏 0 人点赞

#prompt-optimization

结构化提示优化与强化学习结合实现复杂文本的全局与局部可解释性

arXiv cs.CL ↗ · 2026-05-29 缓存

介绍了eXTC，一个具有三个渐进阶段的文本分类器：结构化提示优化以学习自然语言规则手册、将推理蒸馏到紧凑的语言模型中、以及强化学习扩展推理，实现了强大的性能和可解释性。

0 人收藏 0 人点赞

#prompt-optimization

提示优化为何有效，为何有时无效：基于因果启发的编辑级分析

arXiv cs.CL ↗ · 2026-05-27 缓存

本文对自动化提示优化进行了基于因果启发的分析，涵盖多种框架、大语言模型和任务，识别出特定编辑类型（如复杂度增加型、元指令型）根据任务特征具有系统的负面或正面效应，从而解释了泛化失败的原因。

0 人收藏 0 人点赞

#prompt-optimization

SPEAR：代码增强的智能体提示优化

arXiv cs.CL ↗ · 2026-05-27 缓存

SPEAR 是一个代码增强的智能体提示优化器，它利用 Python 沙箱进行结构错误分析，在包括工业裁判任务、BBH 和 GSM8K 在内的多个 LLM 评估套件上取得了最先进的性能。

0 人收藏 0 人点赞

#prompt-optimization

@omarsar0: 微软研究院的新研究我看到很多AI工程师手写智能体技能文档，并希望它们能泛化。…

X AI KOLs Following ↗ · 2026-05-25 缓存

微软研究院推出了SkillOpt，该方法将智能体技能文档视为可训练的外部状态，利用优化器模型进行受限编辑，并通过预留集进行验证。该方案在52个评估单元中取得最佳或并列结果，在GPT-5.5上准确率提升超过23个百分点，且零额外推理成本，技能可迁移。

0 人收藏 0 人点赞

#prompt-optimization

当梯度碰撞：LLM裁判的多目标提示优化的失败模式

Hugging Face Daily Papers ↗ · 2026-05-25 缓存

本文识别了在使用文本梯度进行LLM裁判的多目标提示优化中的两种失败模式：优化过程中的梯度稀释和推理过程中的指令干扰，表明联合梯度处理会丢失特定于标准的信息。

0 人收藏 0 人点赞

#prompt-optimization

通过语言模型函数调用的反思式提示调优

arXiv cs.CL ↗ · 2026-05-22 缓存

介绍了反思式提示调优（RPT），一种利用LLM函数调用，基于系统性错误模式迭代诊断和修改提示的框架，从而提升推理任务性能和校准能力。

0 人收藏 0 人点赞

#prompt-optimization

解决多智能体系统中的信用分配问题（CANTANTE框架）

Reddit r/AI_Agents ↗ · 2026-05-20

CANTANTE 是一个开源框架，通过将系统级奖励转换为每个智能体的更新信号来解决多智能体系统中的信用分配问题，在编程和数学推理基准测试上优于基于 DSPy 的基线。

0 人收藏 0 人点赞

#prompt-optimization

CANTANTE：通过对比信用分配优化智能体系统 [R]

Reddit r/MachineLearning ↗ · 2026-05-20

CANTANTE 引入了一种对比信用分配方法，通过将全局奖励分解为每个智能体的信号，优化多智能体 LLM 系统，从而实现自动化提示调优。在编程、数学和检索基准测试中，它超越了基线方法，在不增加推理成本的情况下实现了最高 +18.9 分的提升。

0 人收藏 0 人点赞

prompt-optimization

提交意见反馈