标签
本文探讨了在预训练阶段压缩大规模混合专家(MoE)模型的结构化剪枝和知识蒸馏技术。研究表明,渐进式剪枝以及结合多标记预测蒸馏等策略,能够提升下游任务的性能。例如,通过将Qwen3-Next-80A3B压缩为更高效的23A2B模型,展示了这一方法的有效性。
本文介绍了 ADAPT,这是一个用于大语言模型数据策展的在线重加权框架。该框架通过损失加权在训练过程中动态调整样本重要性,在跨基准测试的泛化能力方面优于离线筛选和混合方法。
Zyphra发布ZAYA1-74B-Preview,一个在AMD硬件上训练的740亿参数基础模型,强调了强大的预强化学习推理能力和智能体性能信号。
灯塔注意力是一种仅用于训练的、基于层次选择的注意力算法,它降低了因果Transformer长序列训练的计算复杂度,通过恢复阶段后的竞争性最终损失实现更快的预训练。
Token叠加训练(TST)通过将连续token组合成包并在叠加阶段使用多热交叉熵目标,在不改变架构的情况下实现预训练时间最多减少2.5倍,从而提高LLM预训练效率。
MiniCPM4 是一款专为终端设备设计的高效大语言模型,通过稀疏注意力、数据筛选、训练算法和推理系统等方面的创新,在0.5B和8B参数版本上实现了强大性能。
OpenAI 发布了一篇关于其核心技术的解读文章,详细介绍了 GPT-4 等语言模型是如何通过预训练(从海量文本数据中学习)和后训练(与人类价值观对齐和安全实践)开发而成的。文章强调了 OpenAI 的非营利使命结构,并解释了原始基础模型与经过优化、可用版本之间的区别。
# DALL·E 2 预训练风险缓解措施 来源:[https://openai.com/index/dall-e-2-pre-training-mitigations/](https://openai.com/index/dall-e-2-pre-training-mitigations/) 在主动学习阶段,我们通过为可能存在困难或分类错误的图像收集人工标签,迭代改进分类器。值得注意的是,我们使用了两种主动学习技术从包含数亿个未标记图像的数据集中选择图像,以供人工标注。
OpenAI 推出了 GPT-3,一个拥有 1750 亿参数的自回归语言模型,它在无需梯度更新或微调的情况下,在多种 NLP 任务上展现出强大的小样本学习能力,代表了语言模型应用范式的转变——仅通过文本交互就能适应新任务。
OpenAI 提出了一种两阶段方法来改进语言理解:首先在大规模无监督数据集上使用语言建模对 transformer 模型进行预训练,然后在较小的有监督数据集上针对特定任务进行微调。该方法在包括常识推理、语义相似度和阅读理解在内的多种任务上取得了最先进的成果,同时需要的超参数调优工作最少。