training-efficiency

标签

Cards List
#training-efficiency

基于多目标强化学习的LLM预训练整体数据调度器

Hugging Face Daily Papers · 2天前 缓存

介绍了一种基于强化学习的整体数据调度器(HDS),该框架利用多目标奖励函数在LLM预训练过程中动态调整数据混合策略,使达到目标困惑度所需的迭代次数减少44%,并在MMLU上提升7.2%。

0 人收藏 0 人点赞
#training-efficiency

流形赌博机:基于大语言模型潜在几何的贝叶斯课程学习

Hugging Face Daily Papers · 2026-06-18 缓存

介绍了一种名为 Bayesian Manifold Curriculum (BMC) 的自适应课程学习方法,用于大语言模型,该方法利用模型的潜在几何结构在不同问题类型之间分配训练资源,相比传统基于难度的课程学习提高了效率。

0 人收藏 0 人点赞
#training-efficiency

打破气泡:具有有界权重不一致性的异步流水线并行训练

Hugging Face Daily Papers · 2026-06-05 缓存

介绍 PACI,一种无气泡的异步流水线并行训练方法,通过局部梯度累积来约束前向/后向权重不一致性,在保持稳定性和内存使用不变的情况下,实现更高的吞吐量和更快的达到目标精度时间。

0 人收藏 0 人点赞
#training-efficiency

Muon优化器的谱缩放定律

arXiv cs.LG · 2026-06-04 缓存

本文首次系统研究了大语言模型训练过程中Muon优化器动量矩阵奇异值谱的行为规律,发现了在不同模型规模(77M至2.8B参数)下清晰的幂律缩放关系。研究结果为从业者提供了有理论依据、感知层级的Newton–Schulz迭代配置指南,在前沿规模下无需额外计算即可保持正交归一化质量。

0 人收藏 0 人点赞
#training-efficiency

Muon为何超越Adam:曲率视角

Hugging Face Daily Papers · 2026-06-03 缓存

本文探究了Muon优化器在大型语言模型训练中为何优于Adam,从曲率视角表明Muon因更低的归一化方向锐度而承受更小的曲率惩罚,且其优势因数据不平衡而放大。

0 人收藏 0 人点赞
#training-efficiency

关于智能工具调用与强化学习训练的效果与效率

arXiv cs.LG · 2026-06-02 缓存

本文系统分析了工具调用评估对随机种子、多轮模板等微小实现选择的敏感性,揭示这些因素可能导致性能大幅变化。同时,识别了基于强化学习的工具调用训练中的计算浪费来源,并介绍了在不牺牲性能的情况下加速训练的技术。

0 人收藏 0 人点赞
#training-efficiency

FBOS-RL:反馈驱动的双目标协同强化学习

arXiv cs.LG · 2026-05-21 缓存

本文提出FBOS-RL,一个反馈驱动的双目标协同强化学习框架,通过使用反馈引导的探索和两个相互增强的训练目标——面向利用的策略对齐(EPA)和面向探索的能力培养(ECC)——来提升训练效率和性能上限,优于GRPO在大语言模型对齐和推理中的表现。

0 人收藏 0 人点赞
#training-efficiency

重新思考扩散Transformer中的跨层信息路由

Hugging Face Daily Papers · 2026-05-20 缓存

本文提出扩散自适应路由(DAR),这是一种可学习的、时间步自适应的残差替换方法,旨在改善扩散Transformer中的跨层信息流动,从而显著加速训练并提升质量。

0 人收藏 0 人点赞
#training-efficiency

Lens:重新思考基础文本到图像模型的训练效率

Hugging Face Daily Papers · 2026-05-20 缓存

Lens是微软推出的一款紧凑型38亿参数文本到图像模型,在训练计算量显著降低的同时,通过密集描述、多分辨率批处理和高效架构,达到了与更大模型竞争甚至超越的性能。

0 人收藏 0 人点赞
#training-efficiency

DualKV: 针对大规模生成和长上下文的共享提示Flash Attention,用于高效RL训练

arXiv cs.LG · 2026-05-18 缓存

介绍DualKV,一种FlashAttention内核变体,可消除RL后训练(GRPO/DAPO)中冗余的提示词元计算,在30B MoE模型上实现高达3.82倍的加速。

0 人收藏 0 人点赞
#training-efficiency

@HowToAI_: NVIDIA 完成了一项不可能的任务,却无人提及。他们以 4 位精度训练了一个 120 亿参数的 LLM…

X AI KOLs Timeline · 2026-05-15

NVIDIA 利用新的 NVFP4 格式及微缩放技术,以 4 位精度训练了一个 120 亿参数的大语言模型,在几乎不损失智能的同时,内存使用减半、算术速度提升三倍,标志着高效 AI 训练的重大突破。

0 人收藏 0 人点赞
#training-efficiency

Flash-GRPO: 通过单步策略优化实现视频扩散的高效对齐

Hugging Face Daily Papers · 2026-05-15 缓存

Flash-GRPO 通过等时间分组和时间梯度校正解决时间方差和梯度不一致问题,从而提升了视频扩散模型的训练效率,实现了最先进的对齐质量和显著的训练加速。

0 人收藏 0 人点赞
#training-efficiency

通过字节级模拟解耦子词分词对语言模型训练的益处

Hugging Face Daily Papers · 2026-05-14 缓存

本文通过进行受控的字节级预训练实验,研究了子词分词对LLM训练效率和性能的影响。它揭示了关键因素,如训练吞吐量以及将子词边界作为语言先验的整合。

0 人收藏 0 人点赞
#training-efficiency

XPERT:通过专家知识迁移实现语言模型的高效训练

arXiv cs.CL · 2026-05-12 缓存

本文介绍了 XPERT,这是一个从预训练混合专家(MoE)语言模型中提取和复用专家知识的框架,旨在提高下游模型的训练效率和性能。

0 人收藏 0 人点赞
#training-efficiency

SimReg:通过嵌入相似性正则化在预训练阶段实现更高性能

arXiv cs.CL · 2026-05-12 缓存

本文介绍了 SimReg,这是一种用于大语言模型预训练的正则化技术,利用嵌入相似性可将训练收敛速度提高 30% 以上,并显著提升零样本性能。

0 人收藏 0 人点赞
#training-efficiency

NoiseRater:用于扩散模型训练的元学习噪声评估

arXiv cs.LG · 2026-05-12 缓存

本文介绍了 NoiseRater,这是一种元学习框架,在扩散模型训练期间为各个噪声样本分配重要性评分,以提高训练效率和生成质量。

0 人收藏 0 人点赞
#training-efficiency

基于梯度外推的策略优化

arXiv cs.LG · 2026-05-11 缓存

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。

0 人收藏 0 人点赞
#training-efficiency

Aurora:一种针对矩形矩阵的杠杆感知优化器

Lobsters Hottest · 2026-05-10 缓存

Tilde Research 推出了 Aurora,这是一种新型优化器,旨在在保持正交性的同时防止 MLP 层中的神经元死亡,在 nanoGPT 基准测试中取得了最新成果,并在 1B 模型上实现了 100 倍的数据效率。

0 人收藏 0 人点赞
#training-efficiency

AdaPreLoRA:Adafactor 预条件低秩适应

Hugging Face Daily Papers · 2026-05-09 缓存

AdaPreLoRA 是一种新颖的 LoRA 优化器,它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新,同时保持低内存占用,在各种大语言模型(LLM)和任务中表现出具有竞争力的性能。

0 人收藏 0 人点赞
#training-efficiency

大语言模型预训练的数据混合:综述与展望

arXiv cs.CL · 2026-04-21 缓存

# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈