标签
本文介绍了保持旋转的有监督微调(RPSFT),这是一种通过在微调过程中保持预训练奇异子空间中的投影旋转来提高域外泛化能力的方法。
本文介绍了 FragileFlow,这是一种插件式正则化器,通过频谱分析和 PAC-Bayes 界来控制“正确但脆弱”的预测,从而提高 LLM 和 VLM 的鲁棒性。
本文介绍了 DOSER,这是一种利用扩散模型进行分布外(OOD)检测和选择性正则化的框架,旨在离线强化学习中通过区分有益和有害的 OOD 动作来提升在静态数据集上的表现。
作者提出了 Sub-JEPA,这是一种利用子空间高斯正则化来提高 LeWM 等端到端世界模型稳定性的方法,在连续控制基准测试中表现出一致的性能提升。
本文提出即插即用正则项 OrthoReg,通过在微调阶段强制权重正交,无需额外计算即可提升任务算术与模型融合效果。
本文提出了针对文本分类的对抗训练和虚拟对抗训练方法,通过在RNN中对词嵌入而非原始输入施加扰动来实现。该方法在半监督和监督文本分类基准上取得了最先进的结果,同时降低了过拟合。