hyperparameters

标签

#hyperparameters

LLM持续预训练中最佳超参数的可预测缩放规律

arXiv cs.CL ↗ · 2天前缓存

本文发现了LLM持续预训练中最佳超参数（学习率、批量大小）的可预测缩放规律，提出了一个两阶段框架，可将超参数搜索开销降低高达90%，同时保持性能。

0 人收藏 0 人点赞

#hyperparameters

@vikhyatk：太多时间被用来让优化器略微更快，我们真正需要的是无超参数（hparam-free）的优化器

X AI KOLs Timeline ↗ · 2026-05-25

表达了一种观点：太多精力被花费在让优化器略微更快上，而真正需要的是无超参数的优化器。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈