基于多目标强化学习的LLM预训练整体数据调度器

Hugging Face Daily Papers 2026/06/23 00:00 论文

摘要

介绍了一种基于强化学习的整体数据调度器（HDS），该框架利用多目标奖励函数在LLM预训练过程中动态调整数据混合策略，使达到目标困惑度所需的迭代次数减少44%，并在MMLU上提升7.2%。

训练数据的组成，由来源的多样性和混合策略决定，是大语言模型（LLM）预训练的基石。在线数据混合（ODM）作为一种在训练过程中自适应调整数据混合的技术，已成为提升效率的有效方向。然而，现有方法受限于单一的优化视角，根本上忽视了复杂LLM预训练需要从多个维度考虑动态数据组成的需求。为克服这一局限，我们提出了整体数据调度器（HDS），一种新颖的在线数据混合框架。HDS将数据调度问题建模为连续控制空间中的强化学习问题，并利用Soft Actor-Critic（SAC）算法在探索高维策略空间时的稳定性和样本效率。HDS的核心在于一种新颖的多目标整体奖励函数，它整合了三个关键视角：基于数据质量的奖励、捕捉域间影响的损失驱动奖励，以及基于权重范数的模型驱动奖励。为验证我们的设计并确定其最优配置，我们在不同规模的LLM上进行了系统实验。在The Pile基准上，HDS在达到下一最佳方法的最终验证困惑度时，训练迭代次数减少了44%。此外，它在MMLU 0-shot任务上提升了7.2%，并在其他基准上持续改进，展示了其提升训练效率和最终模型能力的效果。

查看原文

查看缓存全文

缓存时间: 2026/06/24 05:46

Paper page - Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning

Source: https://huggingface.co/papers/2606.24133

摘要

一种名为 Holistic Data Scheduler 的新型在线数据混合框架，利用带有多目标奖励函数的强化学习，优化大语言模型预训练的效率与性能。

训练数据的构成——由数据来源的多样性及其混合策略所决定——是大语言模型 (https://huggingface.co/papers?q=Large%20Language%20Model) (LLM) 预训练的基石。在线数据混合 (https://huggingface.co/papers?q=Online%20Data%20Mixing) (ODM) 技术（即在训练过程中自适应地调整数据混合比例）已成为提升效率的一个有前景的方向。然而，现有方法受限于其依赖单一的优化视角，这从根本上忽视了复杂 LLM 预训练需要从多个维度考虑动态数据构成的现实需求。为克服这一局限，我们提出了 Holistic Data Scheduler (HDS)——一个全新的在线数据混合框架。HDS 将数据调度问题形式化为连续控制空间中的强化学习 (https://huggingface.co/papers?q=reinforcement%20learning) 问题，并利用 Soft Actor-Critic (https://huggingface.co/papers?q=Soft%20Actor-Critic) (SAC) 算法的稳定性和样本效率来探索高维策略空间。HDS 的核心是一个新颖的多目标、整体性奖励函数，它整合了三个关键视角：基于数据质量的数据驱动奖励 (https://huggingface.co/papers?q=data-driven%20reward)、捕捉跨领域影响的损失驱动奖励 (https://huggingface.co/papers?q=loss-driven%20reward)，以及基于权重范数的模型驱动奖励 (https://huggingface.co/papers?q=model-driven%20reward)。为验证我们的设计并确定其最佳配置，我们在各种规模的 LLM 上进行了系统性实验。在 The Pile 基准测试上，HDS 以少 44% 的训练迭代次数达到了次优方法的最终验证困惑度。此外，它在 MMLU 0-shot 任务上实现了 7.2% 的提升，并在其他基准测试上取得了持续的改进，展示了其提升训练效率 (https://huggingface.co/papers?q=training%20efficiency) 和最终模型能力 (https://huggingface.co/papers?q=model%20capability) 的能力。

查看 arXiv 页面 (https://arxiv.org/abs/2606.24133)查看 PDF (https://arxiv.org/pdf/2606.24133)项目页面 (https://github.com/DANG-ai/LLM-Training-Holistic-Data-Schedule)GitHub199 (https://github.com/DANG-ai/LLM-Training-Holistic-Data-Schedule)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24133)

在您的 Agent 中获取此论文：

hf papers read 2606\.24133

没有最新版 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.24133 以从本页链接。

引用此论文的数据集0

无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.24133 以从本页链接。

引用此论文的 Spaces0

无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.24133 以从本页链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接。

基于多目标强化学习的LLM预训练整体数据调度器

Paper page - Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

AC-ODM: Actor-Critic在线数据混合方法用于样本高效的大语言模型预训练

预训练期间的RL探索：重新审视LLM训练的策略优化

LLMZero：通过LLM智能体发现强化学习后训练的自适应训练策略

大语言模型预训练的数据混合：综述与展望

SCALE：面向智能体工作流调度的可扩展交叉注意力学习与外推方法

提交意见反馈