标签
FastMix 是一个新颖的框架,通过使用单个代理模型和双层优化自动发现训练大型模型的数据混合方式,实现了最先进的性能,并大幅提升效率。
本文针对耦合梯度下降中的块三角Jacobian矩阵建立了精确的伪谱理论,证明了Kreiss常数界并给出了迭代复杂度结果。研究揭示了与双层优化、双时间尺度随机逼近以及GAN训练相关的非渐近、实例相关的瞬态放大现象。
本文识别了延迟反馈下双层优化中的“过时放大”现象,并提出IGT-OMD,该方法利用隐式梯度传输实现亚线性后悔,并在Warcraft最短路径和LQR等基准上改善了决策损失。
本文介绍了 FocuSFT,这是一种双层优化框架,它通过参数化记忆机制解决注意力稀释问题,从而提升长上下文语言模型的性能。在 BABILong 和 RULER 等基准测试中,该框架在准确性和上下文参与度方面均展现出显著提升。