delayed-feedback

标签

Cards List
#delayed-feedback

IGT-OMD:延迟反馈下决策聚焦学习中的隐式梯度传输

arXiv cs.LG · 2026-05-14 缓存

本文识别了延迟反馈下双层优化中的“过时放大”现象,并提出IGT-OMD,该方法利用隐式梯度传输实现亚线性后悔,并在Warcraft最短路径和LQR等基准上改善了决策损失。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈