parameter-free

标签

Cards List
#parameter-free

基于LMO方法的零阶无参数优化:高效微调的新方法

arXiv cs.LG · 2026-06-16 缓存

本文介绍了AdaNAGED,一种结合零阶优化、无参数自适应和非欧几里得更新几何的方法,用于大型语言模型的内存高效微调,具有理论收敛保证,并在OPT-1.3B模型上进行了验证。

0 人收藏 0 人点赞
#parameter-free

全循环Transformer:简单稳定循环

arXiv cs.LG · 2026-05-20 缓存

本文识别出梯度振荡和残差爆炸是循环Transformer训练不稳定的原因,并提出了全循环Transformer,包含两个无需参数调整的修改(全循环架构和注意力注入),能够稳定训练至12次循环迭代,在下游任务性能上实现了高达13.2%的提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈