marl

标签

Cards List
#marl

用于稳定多智能体策略学习的度量梯度投影

arXiv cs.LG · 2026-05-20

介绍HPML,一种将多智能体系统的联合更新场投影到度量梯度分量上以稳定和改进多智能体强化学习的方法。它提供了理论保证,并在CTDE基准测试上展示了改进的稳定性和回报。

0 人收藏 0 人点赞
#marl

基于宏动作的多智能体指令遵循:价值取消方法

arXiv cs.AI · 2026-05-14 缓存

提出MAVIC,一种多智能体强化学习方法,在指令边界修正价值估计,以在遵循外部自然语言指令的同时保持基础任务性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈