training-efficiency

#training-efficiency

Aurora：一种针对矩形矩阵的杠杆感知优化器

Lobsters Hottest ↗ · 2026-05-10 缓存

Tilde Research 推出了 Aurora，这是一种新型优化器，旨在在保持正交性的同时防止 MLP 层中的神经元死亡，在 nanoGPT 基准测试中取得了最新成果，并在 1B 模型上实现了 100 倍的数据效率。

0 人收藏 0 人点赞

#training-efficiency

AdaPreLoRA：Adafactor 预条件低秩适应

Hugging Face Daily Papers ↗ · 2026-05-09 缓存

AdaPreLoRA 是一种新颖的 LoRA 优化器，它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新，同时保持低内存占用，在各种大语言模型（LLM）和任务中表现出具有竞争力的性能。

0 人收藏 0 人点赞

#training-efficiency

# 大语言模型预训练的数据混合：综述与展望来源：[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要：大型语言模型（LLMs）依赖于在海量且异构的语料上进行预训练，在现实中的计算和数据预算限制下，训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同，数据混

0 人收藏 0 人点赞

#training-efficiency

新技术让AI模型边学边瘦、边学快

MIT News — Artificial Intelligence ↗ · 2026-04-09 缓存

MIT CSAIL及其他机构的研究人员推出了CompreSSM技术，该技术通过在训练早期移除不必要的组件来压缩状态空间AI模型，从而在不牺牲性能的情况下实现更快的训练速度和更小的模型体积。

0 人收藏 0 人点赞

#training-efficiency

高效训练语言模型执行中间填充任务

OpenAI Blog ↗ · 2022-07-28 缓存

OpenAI 提出了一种简单的数据增强技术，使自回归语言模型能够执行填充中间(FIM)文本生成任务，同时不损害从左到右的性能。文章还提供了广泛的消融研究和训练此类模型的最佳实践。

0 人收藏 0 人点赞

#training-efficiency

AI 与效率

OpenAI Blog ↗ · 2020-05-05 缓存

# AI 与效率来源: [https://openai.com/index/ai-and-efficiency/](https://openai.com/index/ai-and-efficiency/) 训练到 AlexNet 水平性能所需的总计算量（万亿浮点运算次/秒-天）。任意给定时间的最低计算点以蓝色显示，所有测量点以灰色显示。[2](https://openai.com/index/ai-and-efficiency/#citation-bottom-2),[5](https://openai.com/index/ai-and-efficiency/#citation-bottom-5),[6](https://openai.com/index/ai-and-efficiency/#citation-bottom-6),

0 人收藏 0 人点赞

training-efficiency

Aurora：一种针对矩形矩阵的杠杆感知优化器

AdaPreLoRA：Adafactor 预条件低秩适应

大语言模型预训练的数据混合：综述与展望

新技术让AI模型边学边瘦、边学快

高效训练语言模型执行中间填充任务

AI 与效率

提交意见反馈