标签
本文提出DRIFT框架,该框架结合离线轨迹与重要性加权监督微调,高效实现与强化学习相当的多轮交互学习性能。
TILT提出了一种新颖的目标函数,用于在协变量偏移下进行无监督域适应,该函数对未标记目标数据上的辅助组件施加惩罚,隐式实现了具有有界估计量的自定位重要性加权。理论保证和在偏移CIFAR-100上的实验表明,目标域性能优于基线方法。