training-efficiency

标签

Cards List
#training-efficiency

Aurora:一种针对矩形矩阵的杠杆感知优化器

Lobsters Hottest · 2026-05-10 缓存

Tilde Research 推出了 Aurora,这是一种新型优化器,旨在在保持正交性的同时防止 MLP 层中的神经元死亡,在 nanoGPT 基准测试中取得了最新成果,并在 1B 模型上实现了 100 倍的数据效率。

0 人收藏 0 人点赞
#training-efficiency

AdaPreLoRA:Adafactor 预条件低秩适应

Hugging Face Daily Papers · 2026-05-09 缓存

AdaPreLoRA 是一种新颖的 LoRA 优化器,它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新,同时保持低内存占用,在各种大语言模型(LLM)和任务中表现出具有竞争力的性能。

0 人收藏 0 人点赞
#training-efficiency

大语言模型预训练的数据混合:综述与展望

arXiv cs.CL · 2026-04-21 缓存

# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混

0 人收藏 0 人点赞
#training-efficiency

新技术让AI模型边学边瘦、边学快

MIT News — Artificial Intelligence · 2026-04-09 缓存

MIT CSAIL及其他机构的研究人员推出了CompreSSM技术,该技术通过在训练早期移除不必要的组件来压缩状态空间AI模型,从而在不牺牲性能的情况下实现更快的训练速度和更小的模型体积。

0 人收藏 0 人点赞
#training-efficiency

高效训练语言模型执行中间填充任务

OpenAI Blog · 2022-07-28 缓存

OpenAI 提出了一种简单的数据增强技术,使自回归语言模型能够执行填充中间(FIM)文本生成任务,同时不损害从左到右的性能。文章还提供了广泛的消融研究和训练此类模型的最佳实践。

0 人收藏 0 人点赞
#training-efficiency

AI 与效率

OpenAI Blog · 2020-05-05 缓存

# AI 与效率 来源: [https://openai.com/index/ai-and-efficiency/](https://openai.com/index/ai-and-efficiency/) 训练到 AlexNet 水平性能所需的总计算量(万亿浮点运算次/秒-天)。任意给定时间的最低计算点以蓝色显示,所有测量点以灰色显示。[2](https://openai.com/index/ai-and-efficiency/#citation-bottom-2),[5](https://openai.com/index/ai-and-efficiency/#citation-bottom-5),[6](https://openai.com/index/ai-and-efficiency/#citation-bottom-6),

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈