标签
本文发现了LLM持续预训练中最佳超参数(学习率、批量大小)的可预测缩放规律,提出了一个两阶段框架,可将超参数搜索开销降低高达90%,同时保持性能。
表达了一种观点:太多精力被花费在让优化器略微更快上,而真正需要的是无超参数的优化器。