training-efficiency

#training-efficiency

XPERT：通过专家知识迁移实现语言模型的高效训练

arXiv cs.CL ↗ · 昨天缓存

本文介绍了 XPERT，这是一个从预训练混合专家（MoE）语言模型中提取和复用专家知识的框架，旨在提高下游模型的训练效率和性能。

0 人收藏 0 人点赞

#training-efficiency

SimReg：通过嵌入相似性正则化在预训练阶段实现更高性能

arXiv cs.CL ↗ · 昨天缓存

本文介绍了 SimReg，这是一种用于大语言模型预训练的正则化技术，利用嵌入相似性可将训练收敛速度提高 30% 以上，并显著提升零样本性能。

0 人收藏 0 人点赞

#training-efficiency

NoiseRater：用于扩散模型训练的元学习噪声评估

arXiv cs.LG ↗ · 昨天缓存

本文介绍了 NoiseRater，这是一种元学习框架，在扩散模型训练期间为各个噪声样本分配重要性评分，以提高训练效率和生成质量。

0 人收藏 0 人点赞

#training-efficiency

基于梯度外推的策略优化

arXiv cs.LG ↗ · 2天前缓存

本文介绍了基于梯度外推的策略优化（GXPO），这是一种仅使用三次反向传播即可在大型语言模型（LLM）的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时，在数学基准测试上展示了优于标准 GRPO 的推理性能。

0 人收藏 0 人点赞

#training-efficiency

Aurora：一种针对矩形矩阵的杠杆感知优化器

Lobsters Hottest ↗ · 3天前缓存

Tilde Research 推出了 Aurora，这是一种新型优化器，旨在在保持正交性的同时防止 MLP 层中的神经元死亡，在 nanoGPT 基准测试中取得了最新成果，并在 1B 模型上实现了 100 倍的数据效率。

0 人收藏 0 人点赞

#training-efficiency

AdaPreLoRA：Adafactor 预条件低秩适应

Hugging Face Daily Papers ↗ · 4天前缓存

AdaPreLoRA 是一种新颖的 LoRA 优化器，它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新，同时保持低内存占用，在各种大语言模型（LLM）和任务中表现出具有竞争力的性能。

0 人收藏 0 人点赞

#training-efficiency

# 大语言模型预训练的数据混合：综述与展望来源：[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要：大型语言模型（LLMs）依赖于在海量且异构的语料上进行预训练，在现实中的计算和数据预算限制下，训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同，数据混

0 人收藏 0 人点赞

#training-efficiency

新技术让AI模型边学边瘦、边学快

MIT News — Artificial Intelligence ↗ · 2026-04-09 缓存

MIT CSAIL及其他机构的研究人员推出了CompreSSM技术，该技术通过在训练早期移除不必要的组件来压缩状态空间AI模型，从而在不牺牲性能的情况下实现更快的训练速度和更小的模型体积。

0 人收藏 0 人点赞

#training-efficiency

高效训练语言模型执行中间填充任务

OpenAI Blog ↗ · 2022-07-28 缓存

OpenAI 提出了一种简单的数据增强技术，使自回归语言模型能够执行填充中间(FIM)文本生成任务，同时不损害从左到右的性能。文章还提供了广泛的消融研究和训练此类模型的最佳实践。

0 人收藏 0 人点赞

#training-efficiency

AI 与效率

OpenAI Blog ↗ · 2020-05-05 缓存

# AI 与效率来源: [https://openai.com/index/ai-and-efficiency/](https://openai.com/index/ai-and-efficiency/) 训练到 AlexNet 水平性能所需的总计算量（万亿浮点运算次/秒-天）。任意给定时间的最低计算点以蓝色显示，所有测量点以灰色显示。[2](https://openai.com/index/ai-and-efficiency/#citation-bottom-2),[5](https://openai.com/index/ai-and-efficiency/#citation-bottom-5),[6](https://openai.com/index/ai-and-efficiency/#citation-bottom-6),

0 人收藏 0 人点赞

training-efficiency

提交意见反馈