标签
本文讨论了LLM优化中忠实度的重要性,引入了一种结构忠实度分数,通过测量词汇重叠、约束保留和任务类型匹配的漂移,确保提示优化不牺牲意图。
MOCHA 提出了一种面向 LLM 智能体技能的多目标优化方法,通过切比雪夫标量化和指数退火策略来应对严格的平台约束,发现帕累托最优变体,相较于现有优化器取得了显著改进。
本文介绍了 TIDE,一种新颖的框架,它整合了试炼与辩论机制,以改善基于标准的提示优化,用于议论文理解任务,如自动作文评分、论证成分检测和论证关系识别。实验结果显示性能提升,突显了结合基于提示的方法进行鲁棒论证分析的潜力。
一篇关于使用自动化提示优化和评估构建前沿智能体的论文已被KDD 2026接收。
MaximeRivest解释了DSPy的五个核心组件——Optimizers、Signatures、LMs、Modules和Adapters——并认为有效的AI工程需要掌握这些要素,同时强调了结构化输出渲染这一常常被忽视的作用。
PEML提出了一种参数高效的多任务学习方法,通过低秩自适应共同优化连续提示和模型权重。在多个基准测试上,平均准确率提升高达6.67%。
Poetiq的Meta-System通过标准API访问进行递归自我改进,无需微调,在LiveCodeBench Pro编码基准测试上取得了新的SOTA结果,超越了GPT 5.5等领先模型。
本文介绍了“持续增强框架”(Continual Harness),该框架使具身人工智能智能体能够在无需重置环境的情况下实现在线自我改进。研究展示了在《宝可梦》游戏中的显著进展,通过自动化提示词和技能优化,智能体达到了人类水平的表现。
Claude Code 可通过运行评估、自动重写提示词并保留最优结果,实现提示词自迭代,让“钩子文案”技能一夜之间从 32/50 飙到 47/50。
GEPA 是一款开源工具,可基于执行轨迹和评分自动优化提示指令,无需更换模型,就能将 Claude Haiku 4.5 的通过率从 65% 提升到 85%。
一篇回顾 DSPy 框架架构的帖子,该框架围绕签名、模块和优化器构建,并指出它自 2022 年以来仍在持续增长。
研究者推出BEHEMOTH基准与CluE聚类提示优化,使LLM能从多样化任务中抽取并保留异构记忆,相比既往自演化框架提升9%。
本文介绍了 AdamOpt,这是一款基于“亚当定律”的开源工具,它通过将低频词替换为高频同义词来优化提示词,从而降低困惑度。文章强调了该工具的双语言支持、离线处理能力以及在文本生成方面的实际性能提升。
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。
GEPA 是一款提示优化器,利用自然语言反思从试错中学习,在多个任务中,以多达 35 倍的更少 rollout 次数超越了 GRPO 和 MIPROv2 等强化学习方法。
本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。
Evolver 是一个由 GEP 驱动的 AI 代理自演化引擎,可自动化提示词优化并创建可审计、可复用的演化资产。该项目正从完全开源过渡到源代码可用,同时保持与现有 MIT 和 GPL-3.0 版本的向后兼容性。