parameter-free

#parameter-free

基于LMO方法的零阶无参数优化：高效微调的新方法

arXiv cs.LG ↗ · 2026-06-16 缓存

本文介绍了AdaNAGED，一种结合零阶优化、无参数自适应和非欧几里得更新几何的方法，用于大型语言模型的内存高效微调，具有理论收敛保证，并在OPT-1.3B模型上进行了验证。

0 人收藏 0 人点赞

#parameter-free

arXiv cs.LG ↗ · 2026-05-20 缓存

本文识别出梯度振荡和残差爆炸是循环Transformer训练不稳定的原因，并提出了全循环Transformer，包含两个无需参数调整的修改（全循环架构和注意力注入），能够稳定训练至12次循环迭代，在下游任务性能上实现了高达13.2%的提升。

0 人收藏 0 人点赞