token-learning

标签

Cards List
#token-learning

@rosinality: https://arxiv.org/abs/2606.29858 为什么会出现幂律缩放?单个token的损失遵循S形曲线,……

X AI KOLs Timeline · 2天前 缓存

本文提出了一个token级别的框架,表明语言模型损失中的幂律缩放来源于单个token的S形学习曲线的聚合,并证明根据token学习时间重塑训练分布可以将验证损失降低11%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈