标签
介绍了SPO,一种用于自动提示优化的随机搜索框架,包含三种策略,其中包括SAGE,一种智能体引导的多智能体流水线。在基准测试上进行了评估,并部署在心理健康聊天机器人上,通过持续优化显示出在留存率方面的改进。
本文提出DOMOO,一种多样性驱动的离线多目标优化方法,通过累积风险控制和嵌套帕累托集学习来解决分布外问题,在基准测试中实现了优异的收敛性和多样性。
本文提出了一种基于最优传输的置换不变贝叶斯优化方法,用于优化海上风电场布局。与标准贝叶斯优化相比,该方法将计算时间减少一半,并生成更优的布局。
OpenAI 提出进化策略(ES)作为一种可扩展的黑箱优化方法,可替代强化学习用于训练神经网络策略。进化策略通过将策略训练视为随机参数搜索来简化优化问题,该搜索基于奖励反馈反复采样并选择更优的参数配置。