matching-markets

#matching-markets

学会匹配：具有时间扩展反馈的双边匹配

arXiv cs.LG ↗ · 2026-06-08 缓存

本文介绍了一个具有时间扩展反馈的双边匹配框架，将其建模为部分可观测的马尔可夫博弈，包含昂贵筛选、噪声观测和动态变化的潜在特征。作者提出了多智能体强化学习基准Learn2Match，并展示了独立PPO在社会福利方面优于bandit基线，但信息摩擦损失更高。

0 人收藏 0 人点赞