matching-markets

标签

Cards List
#matching-markets

学会匹配:具有时间扩展反馈的双边匹配

arXiv cs.LG · 2026-06-08 缓存

本文介绍了一个具有时间扩展反馈的双边匹配框架,将其建模为部分可观测的马尔可夫博弈,包含昂贵筛选、噪声观测和动态变化的潜在特征。作者提出了多智能体强化学习基准Learn2Match,并展示了独立PPO在社会福利方面优于bandit基线,但信息摩擦损失更高。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈