基于多目标强化学习的LLM预训练整体数据调度器

Hugging Face Daily Papers 论文

摘要

介绍了一种基于强化学习的整体数据调度器(HDS),该框架利用多目标奖励函数在LLM预训练过程中动态调整数据混合策略,使达到目标困惑度所需的迭代次数减少44%,并在MMLU上提升7.2%。

训练数据的组成,由来源的多样性和混合策略决定,是大语言模型(LLM)预训练的基石。在线数据混合(ODM)作为一种在训练过程中自适应调整数据混合的技术,已成为提升效率的有效方向。然而,现有方法受限于单一的优化视角,根本上忽视了复杂LLM预训练需要从多个维度考虑动态数据组成的需求。为克服这一局限,我们提出了整体数据调度器(HDS),一种新颖的在线数据混合框架。HDS将数据调度问题建模为连续控制空间中的强化学习问题,并利用Soft Actor-Critic(SAC)算法在探索高维策略空间时的稳定性和样本效率。HDS的核心在于一种新颖的多目标整体奖励函数,它整合了三个关键视角:基于数据质量的奖励、捕捉域间影响的损失驱动奖励,以及基于权重范数的模型驱动奖励。为验证我们的设计并确定其最优配置,我们在不同规模的LLM上进行了系统实验。在The Pile基准上,HDS在达到下一最佳方法的最终验证困惑度时,训练迭代次数减少了44%。此外,它在MMLU 0-shot任务上提升了7.2%,并在其他基准上持续改进,展示了其提升训练效率和最终模型能力的效果。
查看原文
查看缓存全文

缓存时间: 2026/06/24 05:46

Paper page - Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning

Source: https://huggingface.co/papers/2606.24133

摘要

一种名为 Holistic Data Scheduler 的新型在线数据混合框架,利用带有多目标奖励函数的强化学习,优化大语言模型预训练的效率与性能。

训练数据的构成——由数据来源的多样性及其混合策略所决定——是大语言模型 (https://huggingface.co/papers?q=Large%20Language%20Model) (LLM) 预训练的基石。在线数据混合 (https://huggingface.co/papers?q=Online%20Data%20Mixing) (ODM) 技术(即在训练过程中自适应地调整数据混合比例)已成为提升效率的一个有前景的方向。然而,现有方法受限于其依赖单一的优化视角,这从根本上忽视了复杂 LLM 预训练需要从多个维度考虑动态数据构成的现实需求。为克服这一局限,我们提出了 Holistic Data Scheduler (HDS)——一个全新的在线数据混合框架。HDS 将数据调度问题形式化为连续控制空间中的强化学习 (https://huggingface.co/papers?q=reinforcement%20learning) 问题,并利用 Soft Actor-Critic (https://huggingface.co/papers?q=Soft%20Actor-Critic) (SAC) 算法的稳定性和样本效率来探索高维策略空间。HDS 的核心是一个新颖的多目标、整体性奖励函数,它整合了三个关键视角:基于数据质量的数据驱动奖励 (https://huggingface.co/papers?q=data-driven%20reward)、捕捉跨领域影响的损失驱动奖励 (https://huggingface.co/papers?q=loss-driven%20reward),以及基于权重范数的模型驱动奖励 (https://huggingface.co/papers?q=model-driven%20reward)。为验证我们的设计并确定其最佳配置,我们在各种规模的 LLM 上进行了系统性实验。在 The Pile 基准测试上,HDS 以少 44% 的训练迭代次数达到了次优方法的最终验证困惑度。此外,它在 MMLU 0-shot 任务上实现了 7.2% 的提升,并在其他基准测试上取得了持续的改进,展示了其提升训练效率 (https://huggingface.co/papers?q=training%20efficiency) 和最终模型能力 (https://huggingface.co/papers?q=model%20capability) 的能力。

查看 arXiv 页面 (https://arxiv.org/abs/2606.24133)查看 PDF (https://arxiv.org/pdf/2606.24133)项目页面 (https://github.com/DANG-ai/LLM-Training-Holistic-Data-Schedule)GitHub199 (https://github.com/DANG-ai/LLM-Training-Holistic-Data-Schedule)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24133)

在您的 Agent 中获取此论文:

hf papers read 2606\.24133

没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.24133 以从本页链接。

引用此论文的数据集0

无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.24133 以从本页链接。

引用此论文的 Spaces0

无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.24133 以从本页链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接。

相似文章

预训练期间的RL探索:重新审视LLM训练的策略优化

arXiv cs.LG

哈佛大学的研究人员挑战了标准的LLM训练流程,证明强化学习可以在预训练期间有效应用,而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要,并提出并行平均RL和SFT目标的方法,该方法在所有讨论的其他训练方法中表现出色,跨所有指标均优于它们,同时保持了通用能力。

大语言模型预训练的数据混合:综述与展望

arXiv cs.CL

# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混