constrained-optimization

标签

Cards List
#constrained-optimization

Optuna的约束树形帕森估计器是c-TPE的联合密度推广

arXiv cs.LG · 3天前 缓存

本文证明Optuna的约束树形帕森估计器(TPE)是c-TPE算法的联合密度推广,展示了其对约束重复的不变性,而独立的c-TPE则会退化。作者概述了实际权衡以及未来研究方向。

0 人收藏 0 人点赞
#constrained-optimization

学会记住什么:面向长时域语言代理的基于约束优化的可观测性安全记忆保留

arXiv cs.AI · 3天前 缓存

本文将为长时域语言代理的记忆保留公式化为一个约束随机优化问题,提出了OSL-MR框架,该框架通过混合评分启发式强制实施可观测性安全学习。实验表明,在严格记忆预算下,该方法始终优于现有的启发式基线。

0 人收藏 0 人点赞
#constrained-optimization

面向长程语言智能体可验证强化学习的策略条件化反事实信用

arXiv cs.LG · 2026-06-05 缓存

提出了CVT-RL,一种带有策略条件化反事实贡献估计和可验证奖励的约束策略梯度算法,提高了长程语言智能体的可靠性并减少了奖励篡改。

0 人收藏 0 人点赞
#constrained-optimization

推理的影子价格:LLM最优预算分配的经济学视角

arXiv cs.AI · 2026-06-03 缓存

本文将LLM推理预算分配形式化为一个约束优化问题,提出CLEAR方法,将资源从低效用查询重新分配到接近涌现阈值的查询,在预算紧张的情况下实现了高达3倍的准确率提升。

0 人收藏 0 人点赞
#constrained-optimization

约束流优化:基于序列微调的分子设计方法

arXiv cs.LG · 2026-06-01 缓存

介绍了约束流优化(CFO)框架,该框架通过微调生成流模型,在分子设计中最大化奖励的同时满足约束,具有理论保证和实验验证。

0 人收藏 0 人点赞
#constrained-optimization

可扩展的约束多智能体强化学习:通过状态增强与一致性实现可分离动力学

arXiv cs.LG · 2026-06-01 缓存

本文提出了一种分布式方法,用于约束多智能体强化学习,该方法采用状态增强策略学习和对偶变量上的邻居间一致性,以在满足全局资源约束的同时实现智能体数量线性扩展。在智能电网需求响应上的实验表明,一致性协调对可行性至关重要:与集中式训练方法不同,它能够扩展到数千个智能体。

0 人收藏 0 人点赞
#constrained-optimization

超越单槽位:多槽位保量展示广告的联合优化

arXiv cs.LG · 2026-05-22 缓存

提出了一种针对多槽位保量展示广告的联合优化框架,通过二分图匹配和合约轮盘机制解决槽位冗余和合约不平衡问题。在美团上的在线A/B测试显示,收入与合约履行显著提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈