data-curation

#data-curation

重新思考大模型训练中的数据策展：在线重加权比离线方法具有更好的泛化能力

arXiv cs.LG ↗ · 5天前缓存

本文介绍了 ADAPT，这是一个用于大语言模型数据策展的在线重加权框架。该框架通过损失加权在训练过程中动态调整样本重要性，在跨基准测试的泛化能力方面优于离线筛选和混合方法。

0 人收藏 0 人点赞

#data-curation

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了Neuron-Activated Graph (NAG) Ranking，一种无需训练的框架，用于选择与目标任务对齐的预训练数据，通过识别并基于神经元激活模式的相似性对候选数据进行排序。该方法相较于随机采样平均提升了4.9%，并证明了稀疏神经元模式能够捕获目标学习的功能能力。

0 人收藏 0 人点赞