data-curation

标签

Cards List
#data-curation

重新思考大模型训练中的数据策展:在线重加权比离线方法具有更好的泛化能力

arXiv cs.LG · 5天前 缓存

本文介绍了 ADAPT,这是一个用于大语言模型数据策展的在线重加权框架。该框架通过损失加权在训练过程中动态调整样本重要性,在跨基准测试的泛化能力方面优于离线筛选和混合方法。

0 人收藏 0 人点赞
#data-curation

基于Neuron-Activated Graph的目标导向预训练数据选择

arXiv cs.CL · 2026-04-20 缓存

本文介绍了Neuron-Activated Graph (NAG) Ranking,一种无需训练的框架,用于选择与目标任务对齐的预训练数据,通过识别并基于神经元激活模式的相似性对候选数据进行排序。该方法相较于随机采样平均提升了4.9%,并证明了稀疏神经元模式能够捕获目标学习的功能能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈