training-efficiency

#training-efficiency

基于多目标强化学习的LLM预训练整体数据调度器

Hugging Face Daily Papers ↗ · 2天前缓存

介绍了一种基于强化学习的整体数据调度器（HDS），该框架利用多目标奖励函数在LLM预训练过程中动态调整数据混合策略，使达到目标困惑度所需的迭代次数减少44%，并在MMLU上提升7.2%。

0 人收藏 0 人点赞

#training-efficiency

流形赌博机：基于大语言模型潜在几何的贝叶斯课程学习

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

介绍了一种名为 Bayesian Manifold Curriculum (BMC) 的自适应课程学习方法，用于大语言模型，该方法利用模型的潜在几何结构在不同问题类型之间分配训练资源，相比传统基于难度的课程学习提高了效率。

0 人收藏 0 人点赞

#training-efficiency

打破气泡：具有有界权重不一致性的异步流水线并行训练

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

介绍 PACI，一种无气泡的异步流水线并行训练方法，通过局部梯度累积来约束前向/后向权重不一致性，在保持稳定性和内存使用不变的情况下，实现更高的吞吐量和更快的达到目标精度时间。

0 人收藏 0 人点赞

#training-efficiency

Muon优化器的谱缩放定律

arXiv cs.LG ↗ · 2026-06-04 缓存

本文首次系统研究了大语言模型训练过程中Muon优化器动量矩阵奇异值谱的行为规律，发现了在不同模型规模（77M至2.8B参数）下清晰的幂律缩放关系。研究结果为从业者提供了有理论依据、感知层级的Newton–Schulz迭代配置指南，在前沿规模下无需额外计算即可保持正交归一化质量。

0 人收藏 0 人点赞

#training-efficiency

Muon为何超越Adam：曲率视角

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

本文探究了Muon优化器在大型语言模型训练中为何优于Adam，从曲率视角表明Muon因更低的归一化方向锐度而承受更小的曲率惩罚，且其优势因数据不平衡而放大。

0 人收藏 0 人点赞

#training-efficiency

关于智能工具调用与强化学习训练的效果与效率

arXiv cs.LG ↗ · 2026-06-02 缓存

本文系统分析了工具调用评估对随机种子、多轮模板等微小实现选择的敏感性，揭示这些因素可能导致性能大幅变化。同时，识别了基于强化学习的工具调用训练中的计算浪费来源，并介绍了在不牺牲性能的情况下加速训练的技术。

0 人收藏 0 人点赞

#training-efficiency

FBOS-RL：反馈驱动的双目标协同强化学习

arXiv cs.LG ↗ · 2026-05-21 缓存

本文提出FBOS-RL，一个反馈驱动的双目标协同强化学习框架，通过使用反馈引导的探索和两个相互增强的训练目标——面向利用的策略对齐（EPA）和面向探索的能力培养（ECC）——来提升训练效率和性能上限，优于GRPO在大语言模型对齐和推理中的表现。

0 人收藏 0 人点赞

#training-efficiency

重新思考扩散Transformer中的跨层信息路由

Hugging Face Daily Papers ↗ · 2026-05-20 缓存

本文提出扩散自适应路由（DAR），这是一种可学习的、时间步自适应的残差替换方法，旨在改善扩散Transformer中的跨层信息流动，从而显著加速训练并提升质量。

0 人收藏 0 人点赞

#training-efficiency

Lens：重新思考基础文本到图像模型的训练效率

Hugging Face Daily Papers ↗ · 2026-05-20 缓存

Lens是微软推出的一款紧凑型38亿参数文本到图像模型，在训练计算量显著降低的同时，通过密集描述、多分辨率批处理和高效架构，达到了与更大模型竞争甚至超越的性能。

0 人收藏 0 人点赞

#training-efficiency

DualKV: 针对大规模生成和长上下文的共享提示Flash Attention，用于高效RL训练

arXiv cs.LG ↗ · 2026-05-18 缓存

介绍DualKV，一种FlashAttention内核变体，可消除RL后训练（GRPO/DAPO）中冗余的提示词元计算，在30B MoE模型上实现高达3.82倍的加速。

0 人收藏 0 人点赞

#training-efficiency

@HowToAI_: NVIDIA 完成了一项不可能的任务，却无人提及。他们以 4 位精度训练了一个 120 亿参数的 LLM…

X AI KOLs Timeline ↗ · 2026-05-15

NVIDIA 利用新的 NVFP4 格式及微缩放技术，以 4 位精度训练了一个 120 亿参数的大语言模型，在几乎不损失智能的同时，内存使用减半、算术速度提升三倍，标志着高效 AI 训练的重大突破。

0 人收藏 0 人点赞

#training-efficiency

Flash-GRPO: 通过单步策略优化实现视频扩散的高效对齐

Hugging Face Daily Papers ↗ · 2026-05-15 缓存

Flash-GRPO 通过等时间分组和时间梯度校正解决时间方差和梯度不一致问题，从而提升了视频扩散模型的训练效率，实现了最先进的对齐质量和显著的训练加速。

0 人收藏 0 人点赞

#training-efficiency

通过字节级模拟解耦子词分词对语言模型训练的益处

Hugging Face Daily Papers ↗ · 2026-05-14 缓存

本文通过进行受控的字节级预训练实验，研究了子词分词对LLM训练效率和性能的影响。它揭示了关键因素，如训练吞吐量以及将子词边界作为语言先验的整合。

0 人收藏 0 人点赞

#training-efficiency

XPERT：通过专家知识迁移实现语言模型的高效训练

arXiv cs.CL ↗ · 2026-05-12 缓存

本文介绍了 XPERT，这是一个从预训练混合专家（MoE）语言模型中提取和复用专家知识的框架，旨在提高下游模型的训练效率和性能。

0 人收藏 0 人点赞

#training-efficiency

SimReg：通过嵌入相似性正则化在预训练阶段实现更高性能

arXiv cs.CL ↗ · 2026-05-12 缓存

本文介绍了 SimReg，这是一种用于大语言模型预训练的正则化技术，利用嵌入相似性可将训练收敛速度提高 30% 以上，并显著提升零样本性能。

0 人收藏 0 人点赞

#training-efficiency

NoiseRater：用于扩散模型训练的元学习噪声评估

arXiv cs.LG ↗ · 2026-05-12 缓存

本文介绍了 NoiseRater，这是一种元学习框架，在扩散模型训练期间为各个噪声样本分配重要性评分，以提高训练效率和生成质量。

0 人收藏 0 人点赞

#training-efficiency

基于梯度外推的策略优化

arXiv cs.LG ↗ · 2026-05-11 缓存

本文介绍了基于梯度外推的策略优化（GXPO），这是一种仅使用三次反向传播即可在大型语言模型（LLM）的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时，在数学基准测试上展示了优于标准 GRPO 的推理性能。

0 人收藏 0 人点赞

#training-efficiency

Aurora：一种针对矩形矩阵的杠杆感知优化器

Lobsters Hottest ↗ · 2026-05-10 缓存

Tilde Research 推出了 Aurora，这是一种新型优化器，旨在在保持正交性的同时防止 MLP 层中的神经元死亡，在 nanoGPT 基准测试中取得了最新成果，并在 1B 模型上实现了 100 倍的数据效率。

0 人收藏 0 人点赞

#training-efficiency

AdaPreLoRA：Adafactor 预条件低秩适应

Hugging Face Daily Papers ↗ · 2026-05-09 缓存

AdaPreLoRA 是一种新颖的 LoRA 优化器，它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新，同时保持低内存占用，在各种大语言模型（LLM）和任务中表现出具有竞争力的性能。

0 人收藏 0 人点赞

#training-efficiency

# 大语言模型预训练的数据混合：综述与展望来源：[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要：大型语言模型（LLMs）依赖于在海量且异构的语料上进行预训练，在现实中的计算和数据预算限制下，训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同，数据混

0 人收藏 0 人点赞

training-efficiency

提交意见反馈