标签
提出了CodeBlock,一种用于代码大语言模型监督微调的结构感知稀疏监督框架。它选择高质量的指令-响应对,并将代码响应划分为语法连贯的编码项,仅对选中的项应用损失,从而在使用仅1.9%的监督响应令牌的情况下实现更强的pass@1率。
本文介绍了Spokes,一个基于G-Vendi分数的概率多样化框架,通过联合优化质量和多样性,在FineWeb和DCLM上实现了下游任务性能的显著提升。
本文表明,在低资源验证场景中,验证者仅能访问目标分布中碎片化且有偏的片段,此时数据选择会通过剪除全局相关的尾部模式,反而加速模型崩溃。作者提供了理论证明,并提出了一种协作代理参考机制作为缓解策略。
本文介绍了WebGraphMix,一个轻量级框架,利用来自Common Crawl的网络图中心性分数来选择预训练数据,实验表明混合中心文档与边缘文档能够提升语言模型性能。
APEX 引入了一种用于自动提示优化的动态数据选择策略,将数据集分层划分为简单、困难和混合三个层级,以提高数据效率,在多个基准测试中相对于初始提示取得了显著的性能提升。
DOG-DPO 是一种无需训练的数据选择框架,它将偏好对视为结构化几何信号,将多数据集偏好几何分解为锚定子空间和残差子空间,以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。
本文发现了一种基于LLM的LEGO组装生成中的失败模式PhysHack,并提出PVPO,一种结合基于模型的数据选择的高效样本强化学习方法,仅使用一小部分训练数据即可改善物理和语义对齐。
本文评估了可穿戴健康预测中的自适应数据选择策略,发现该方法显著提升了低基线性能参与者的AUROC,但对强基线参与者改善有限。
本文探讨了通用编码智能体(Claude Code、Codex等)能否自动完成数据筛选循环,在10次迭代内达到已发表基准水平,但揭示了探索新方法方面的差距。一种强制智能体适配先前研究的脚手架策略,能以十分之一的数据量产出优于基准的策略。
LARK提出了一种基于可学习性的推理轨迹选择方法,用于大语言模型蒸馏。该方法采用可学习性因子和χ²正则化选择策略,平衡效率与泛化能力,在多个模型和任务上持续优于基线方法。
本文研究了多阶段LLM微调中数据选择策略的长期影响,揭示了短视选择会损害未来适应能力。为此,提出了一种长期视角感知选择(LHAS)目标以缓解这些问题。
信任函数通过识别可靠的弱标签进行训练,实现近乎无损的弱到强泛化,在多个领域中达到与真实标签监督相当的性能。
MIRA是一个用于大语言模型开发中间训练阶段的数据选择框架,它自适应地按数据源构建质量评分标准,使用教师模型提出维度并蒸馏为轻量级评分器。与全语料训练相比,仅使用一半的token即可实现更优性能。
提出SLAP,一种用于大型语言模型高效指令微调的新型数据选择框架,它评估批次可学习性并采用分层采样,以在减少20-40%训练数据的情况下实现卓越性能。
P2D是一个统一框架,利用任务敏感的注意力头进行数据选择和结构剪枝,通过仅更新10%的头部和10%的数据,实现了8.3个百分点的性能提升和7.0倍的加速。
本文提出高熵总和(HES),这是一种无需训练的度量方法,用于为LLM训练选择高质量推理数据,并在SFT、RFT和RL等范式中得到验证。
Weasel是一种用于Web代理离线训练的轨迹选择方法,通过平衡重要性与多样性来提升域外泛化能力。该方法在多个基准测试中实现了高达12.5倍的训练加速并提升了性能。
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混
SAI-DPO 引入了一个动态采样框架,在数学推理任务中根据模型不断演进的能力自适应调整训练数据,利用自感知难度指标和知识语义对齐在 AIME24 和 AMC23 等基准上以更少的数据实现最先进的效率。