标签
本文介绍了Expectation Consistency Loss (ECL),这是一种基于理论的损失函数,用于在协变量偏移下校准分类器置信度,该函数源自一个称为Expectation Consistency Condition的必要充分条件。
TILT提出了一种新颖的目标函数,用于在协变量偏移下进行无监督域适应,该函数对未标记目标数据上的辅助组件施加惩罚,隐式实现了具有有界估计量的自定位重要性加权。理论保证和在偏移CIFAR-100上的实验表明,目标域性能优于基线方法。
本文重新审视了数据集聚合(DAgger)方法在训练长周期大语言模型智能体中的应用,证明了在回合级别上对教师与学生的策略进行插值能够有效缓解协变量偏移,并在SWE-bench Verified等软件工程基准测试中优于现有方法。