hyperparameters

标签

Cards List
#hyperparameters

LLM持续预训练中最佳超参数的可预测缩放规律

arXiv cs.CL · 2天前 缓存

本文发现了LLM持续预训练中最佳超参数(学习率、批量大小)的可预测缩放规律,提出了一个两阶段框架,可将超参数搜索开销降低高达90%,同时保持性能。

0 人收藏 0 人点赞
#hyperparameters

@vikhyatk:太多时间被用来让优化器略微更快,我们真正需要的是无超参数(hparam-free)的优化器

X AI KOLs Timeline · 2026-05-25

表达了一种观点:太多精力被花费在让优化器略微更快上,而真正需要的是无超参数的优化器。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈