标签
本文介绍了 XPERT,这是一个从预训练混合专家(MoE)语言模型中提取和复用专家知识的框架,旨在提高下游模型的训练效率和性能。
本文介绍了 SimReg,这是一种用于大语言模型预训练的正则化技术,利用嵌入相似性可将训练收敛速度提高 30% 以上,并显著提升零样本性能。
本文介绍了 NoiseRater,这是一种元学习框架,在扩散模型训练期间为各个噪声样本分配重要性评分,以提高训练效率和生成质量。
本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。
Tilde Research 推出了 Aurora,这是一种新型优化器,旨在在保持正交性的同时防止 MLP 层中的神经元死亡,在 nanoGPT 基准测试中取得了最新成果,并在 1B 模型上实现了 100 倍的数据效率。
AdaPreLoRA 是一种新颖的 LoRA 优化器,它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新,同时保持低内存占用,在各种大语言模型(LLM)和任务中表现出具有竞争力的性能。
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混
MIT CSAIL及其他机构的研究人员推出了CompreSSM技术,该技术通过在训练早期移除不必要的组件来压缩状态空间AI模型,从而在不牺牲性能的情况下实现更快的训练速度和更小的模型体积。
OpenAI 提出了一种简单的数据增强技术,使自回归语言模型能够执行填充中间(FIM)文本生成任务,同时不损害从左到右的性能。文章还提供了广泛的消融研究和训练此类模型的最佳实践。
# AI 与效率 来源: [https://openai.com/index/ai-and-efficiency/](https://openai.com/index/ai-and-efficiency/) 训练到 AlexNet 水平性能所需的总计算量(万亿浮点运算次/秒-天)。任意给定时间的最低计算点以蓝色显示,所有测量点以灰色显示。[2](https://openai.com/index/ai-and-efficiency/#citation-bottom-2),[5](https://openai.com/index/ai-and-efficiency/#citation-bottom-5),[6](https://openai.com/index/ai-and-efficiency/#citation-bottom-6),