@songhan_mit: 探索简化 OPD 以高效进行 LLM 后训练:

X AI KOLs Following 论文

摘要

本文介绍了一种简化 OPD 以实现大语言模型高效后训练的方法。

探索简化 OPD 以高效进行 LLM 后训练:
查看原文

相似文章

大语言模型预训练的数据混合:综述与展望

arXiv cs.CL

# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混

LiFT:指令微调能否提升大语言模型的纵向建模上下文学习能力?

arXiv cs.CL

## 指令微调能否提升大语言模型的纵向建模上下文学习能力? 来源:[https://arxiv.org/html/2604.16382](https://arxiv.org/html/2604.16382) Iqra Ali¹, Talia Tseriotou¹, Mahmud Elahi Akhter¹, Yuxiang Zhou¹, Maria Liakata¹,² ¹伦敦玛丽女王大学(英国),²艾伦·图灵研究所(英国) {iqra.ali,t.tseriotou,m.liakata}@qmul.ac.uk ###### 摘要 纵向NLP任务要求对时间有序的文本进行推理,以检测人类行为和观点的持续性和变化。然而,大语言模型的上下文学习在模型必须整合历史上下文、跟踪不断演变的交互,以及处理罕见变化事件的任务上存在困难。我们提出了LiFT,一个纵向指令微调框架,将多样化的纵向建模任务统一在共享的指令模式之下。LiFT采用课程式方法,在逐步增加时间难度的同时融入少样本结构和时间条件化,以鼓励有效利用过去上下文。我们在五个数据集上评估了LiFT。在不同时间粒度级别上针对纵向任务训练的模型,在两个独立数据集上进行了泛化能力测试。在不同参数规模的模型(OLMo(1B/7B)、LLaMA-8B和Qwen-14B)中,LiFT始终优于基线模型的上下文学习,在分布外数据和少数类变化事件上表现出显著的提升。

大语言模型预训练中隐藏层蒸馏的研究

arXiv cs.CL

本文探讨了大语言模型预训练中的隐藏层蒸馏(HLD),并基于 Gemma3 将其与标准的基于 logits 的知识蒸馏进行了比较。研究发现,尽管 HLD 在下游任务中并未始终优于标准方法,但能带来系统的困惑度降低,这表明在预训练期间提取潜在信号方面具有改进潜力。