基于多目标强化学习的LLM预训练整体数据调度器
摘要
介绍了一种基于强化学习的整体数据调度器(HDS),该框架利用多目标奖励函数在LLM预训练过程中动态调整数据混合策略,使达到目标困惑度所需的迭代次数减少44%,并在MMLU上提升7.2%。
查看缓存全文
缓存时间: 2026/06/24 05:46
Paper page - Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning
Source: https://huggingface.co/papers/2606.24133
摘要
一种名为 Holistic Data Scheduler 的新型在线数据混合框架,利用带有多目标奖励函数的强化学习,优化大语言模型预训练的效率与性能。
训练数据的构成——由数据来源的多样性及其混合策略所决定——是大语言模型 (https://huggingface.co/papers?q=Large%20Language%20Model) (LLM) 预训练的基石。在线数据混合 (https://huggingface.co/papers?q=Online%20Data%20Mixing) (ODM) 技术(即在训练过程中自适应地调整数据混合比例)已成为提升效率的一个有前景的方向。然而,现有方法受限于其依赖单一的优化视角,这从根本上忽视了复杂 LLM 预训练需要从多个维度考虑动态数据构成的现实需求。为克服这一局限,我们提出了 Holistic Data Scheduler (HDS)——一个全新的在线数据混合框架。HDS 将数据调度问题形式化为连续控制空间中的强化学习 (https://huggingface.co/papers?q=reinforcement%20learning) 问题,并利用 Soft Actor-Critic (https://huggingface.co/papers?q=Soft%20Actor-Critic) (SAC) 算法的稳定性和样本效率来探索高维策略空间。HDS 的核心是一个新颖的多目标、整体性奖励函数,它整合了三个关键视角:基于数据质量的数据驱动奖励 (https://huggingface.co/papers?q=data-driven%20reward)、捕捉跨领域影响的损失驱动奖励 (https://huggingface.co/papers?q=loss-driven%20reward),以及基于权重范数的模型驱动奖励 (https://huggingface.co/papers?q=model-driven%20reward)。为验证我们的设计并确定其最佳配置,我们在各种规模的 LLM 上进行了系统性实验。在 The Pile 基准测试上,HDS 以少 44% 的训练迭代次数达到了次优方法的最终验证困惑度。此外,它在 MMLU 0-shot 任务上实现了 7.2% 的提升,并在其他基准测试上取得了持续的改进,展示了其提升训练效率 (https://huggingface.co/papers?q=training%20efficiency) 和最终模型能力 (https://huggingface.co/papers?q=model%20capability) 的能力。
查看 arXiv 页面 (https://arxiv.org/abs/2606.24133)查看 PDF (https://arxiv.org/pdf/2606.24133)项目页面 (https://github.com/DANG-ai/LLM-Training-Holistic-Data-Schedule)GitHub199 (https://github.com/DANG-ai/LLM-Training-Holistic-Data-Schedule)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24133)
在您的 Agent 中获取此论文:
hf papers read 2606\.24133
没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.24133 以从本页链接。
引用此论文的数据集0
无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.24133 以从本页链接。
引用此论文的 Spaces0
无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2606.24133 以从本页链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接。
相似文章
AC-ODM: Actor-Critic在线数据混合方法用于样本高效的大语言模型预训练
AC-ODM 使用强化学习动态优化大语言模型的预训练数据组成,实现了更快的收敛速度和更高的下游任务准确率,且计算开销可忽略不计。
预训练期间的RL探索:重新审视LLM训练的策略优化
哈佛大学的研究人员挑战了标准的LLM训练流程,证明强化学习可以在预训练期间有效应用,而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要,并提出并行平均RL和SFT目标的方法,该方法在所有讨论的其他训练方法中表现出色,跨所有指标均优于它们,同时保持了通用能力。
LLMZero:通过LLM智能体发现强化学习后训练的自适应训练策略
LLMZero利用LLM智能体通过树搜索在训练轨迹中进行搜索,发现用于强化学习后训练的自适应多参数过渡策略,该策略在多种任务中优于固定调度和网格搜索。
大语言模型预训练的数据混合:综述与展望
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混
SCALE:面向智能体工作流调度的可扩展交叉注意力学习与外推方法
本文提出SCALE,一种面向智能体LLM工作流DAG的深度强化学习调度器,通过交叉注意力与结构化表示正则化,泛化至未见过的集群规模,无需重新训练即可降低响应时间。