标签
本文证明Optuna的约束树形帕森估计器(TPE)是c-TPE算法的联合密度推广,展示了其对约束重复的不变性,而独立的c-TPE则会退化。作者概述了实际权衡以及未来研究方向。
本文将为长时域语言代理的记忆保留公式化为一个约束随机优化问题,提出了OSL-MR框架,该框架通过混合评分启发式强制实施可观测性安全学习。实验表明,在严格记忆预算下,该方法始终优于现有的启发式基线。
提出了CVT-RL,一种带有策略条件化反事实贡献估计和可验证奖励的约束策略梯度算法,提高了长程语言智能体的可靠性并减少了奖励篡改。
本文将LLM推理预算分配形式化为一个约束优化问题,提出CLEAR方法,将资源从低效用查询重新分配到接近涌现阈值的查询,在预算紧张的情况下实现了高达3倍的准确率提升。
介绍了约束流优化(CFO)框架,该框架通过微调生成流模型,在分子设计中最大化奖励的同时满足约束,具有理论保证和实验验证。
本文提出了一种分布式方法,用于约束多智能体强化学习,该方法采用状态增强策略学习和对偶变量上的邻居间一致性,以在满足全局资源约束的同时实现智能体数量线性扩展。在智能电网需求响应上的实验表明,一致性协调对可行性至关重要:与集中式训练方法不同,它能够扩展到数千个智能体。
提出了一种针对多槽位保量展示广告的联合优化框架,通过二分图匹配和合约轮盘机制解决槽位冗余和合约不平衡问题。在美团上的在线A/B测试显示,收入与合约履行显著提升。