标签
Tilde Research 推出了 Aurora,这是一种新型优化器,旨在在保持正交性的同时防止 MLP 层中的神经元死亡,在 nanoGPT 基准测试中取得了最新成果,并在 1B 模型上实现了 100 倍的数据效率。
AdaPreLoRA 是一种新颖的 LoRA 优化器,它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新,同时保持低内存占用,在各种大语言模型(LLM)和任务中表现出具有竞争力的性能。
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混
MIT CSAIL及其他机构的研究人员推出了CompreSSM技术,该技术通过在训练早期移除不必要的组件来压缩状态空间AI模型,从而在不牺牲性能的情况下实现更快的训练速度和更小的模型体积。
OpenAI 提出了一种简单的数据增强技术,使自回归语言模型能够执行填充中间(FIM)文本生成任务,同时不损害从左到右的性能。文章还提供了广泛的消融研究和训练此类模型的最佳实践。
# AI 与效率 来源: [https://openai.com/index/ai-and-efficiency/](https://openai.com/index/ai-and-efficiency/) 训练到 AlexNet 水平性能所需的总计算量(万亿浮点运算次/秒-天)。任意给定时间的最低计算点以蓝色显示,所有测量点以灰色显示。[2](https://openai.com/index/ai-and-efficiency/#citation-bottom-2),[5](https://openai.com/index/ai-and-efficiency/#citation-bottom-5),[6](https://openai.com/index/ai-and-efficiency/#citation-bottom-6),