data-scheduler

#data-scheduler

基于多目标强化学习的LLM预训练整体数据调度器

Hugging Face Daily Papers ↗ · 2天前缓存

介绍了一种基于强化学习的整体数据调度器（HDS），该框架利用多目标奖励函数在LLM预训练过程中动态调整数据混合策略，使达到目标困惑度所需的迭代次数减少44%，并在MMLU上提升7.2%。

0 人收藏 0 人点赞