lm-head

标签

Cards List
#lm-head

令牌几何

arXiv cs.LG · 昨天 缓存

本文介绍了 Ember,一种用于嵌入矩阵和语言模型头矩阵的轻量级优化器,它利用梯度几何来提高监督微调、强化学习和预训练中的效率和性能,同时使用的优化器状态远少于 Adam。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈