data-selection

#data-selection

CODEBLOCK：学习在正确粒度上监督代码

arXiv cs.LG ↗ · 6天前缓存

提出了CodeBlock，一种用于代码大语言模型监督微调的结构感知稀疏监督框架。它选择高质量的指令-响应对，并将代码响应划分为语法连贯的编码项，仅对选中的项应用损失，从而在使用仅1.9%的监督响应令牌的情况下实现更强的pass@1率。

0 人收藏 0 人点赞

#data-selection

Spokes: 优化多样化的预训练数据选择

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了Spokes，一个基于G-Vendi分数的概率多样化框架，通过联合优化质量和多样性，在FineWeb和DCLM上实现了下游任务性能的显著提升。

0 人收藏 0 人点赞

#data-selection

当样本选择偏差加速模型崩溃时

arXiv cs.AI ↗ · 2026-06-15 缓存

本文表明，在低资源验证场景中，验证者仅能访问目标分布中碎片化且有偏的片段，此时数据选择会通过剪除全局相关的尾部模式，反而加速模型崩溃。作者提供了理论证明，并提出了一种协作代理参考机制作为缓解策略。

0 人收藏 0 人点赞

#data-selection

中心与边缘：基于网络图中心性的预训练数据选择

arXiv cs.CL ↗ · 2026-06-11 缓存

本文介绍了WebGraphMix，一个轻量级框架，利用来自Common Crawl的网络图中心性分数来选择预训练数据，实验表明混合中心文档与边缘文档能够提升语言模型性能。

0 人收藏 0 人点赞

#data-selection

APEX：具有动态数据选择的自动提示工程专家

arXiv cs.CL ↗ · 2026-06-11 缓存

APEX 引入了一种用于自动提示优化的动态数据选择策略，将数据集分层划分为简单、困难和混合三个层级，以提高数据效率，在多个基准测试中相对于初始提示取得了显著的性能提升。

0 人收藏 0 人点赞

#data-selection

DOG-DPO：面向安全对齐的几何动态优化

arXiv cs.LG ↗ · 2026-06-09 缓存

DOG-DPO 是一种无需训练的数据选择框架，它将偏好对视为结构化几何信号，将多数据集偏好几何分解为锚定子空间和残差子空间，以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。

0 人收藏 0 人点赞

#data-selection

用于LEGO空间物理推理的高效样本后训练

arXiv cs.LG ↗ · 2026-06-09 缓存

本文发现了一种基于LLM的LEGO组装生成中的失败模式PhysHack，并提出PVPO，一种结合基于模型的数据选择的高效样本强化学习方法，仅使用一小部分训练数据即可改善物理和语义对齐。

0 人收藏 0 人点赞

#data-selection

自适应数据选择改善低基线性能下的可穿戴预测

arXiv cs.LG ↗ · 2026-06-02 缓存

本文评估了可穿戴健康预测中的自适应数据选择策略，发现该方法显著提升了低基线性能参与者的AUROC，但对强基线参与者改善有限。

0 人收藏 0 人点赞

#data-selection

通用智能体能否自动完成数据筛选？

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

本文探讨了通用编码智能体（Claude Code、Codex等）能否自动完成数据筛选循环，在10次迭代内达到已发表基准水平，但揭示了探索新方法方面的差距。一种强制智能体适配先前研究的脚手架策略，能以十分之一的数据量产出优于基准的策略。

0 人收藏 0 人点赞

#data-selection

LARK：基于可学习性的轨迹选择方法用于高效推理蒸馏

arXiv cs.LG ↗ · 2026-06-01 缓存

LARK提出了一种基于可学习性的推理轨迹选择方法，用于大语言模型蒸馏。该方法采用可学习性因子和χ²正则化选择策略，平衡效率与泛化能力，在多个模型和任务上持续优于基线方法。

0 人收藏 0 人点赞

#data-selection

LLM微调中数据选择的长期影响

arXiv cs.LG ↗ · 2026-06-01 缓存

本文研究了多阶段LLM微调中数据选择策略的长期影响，揭示了短视选择会损害未来适应能力。为此，提出了一种长期视角感知选择（LHAS）目标以缓解这些问题。

0 人收藏 0 人点赞

#data-selection

信任函数：通过学会何时信任弱教师实现近乎无损的弱到强泛化

Hugging Face Daily Papers ↗ · 2026-05-31 缓存

信任函数通过识别可靠的弱标签进行训练，实现近乎无损的弱到强泛化，在多个领域中达到与真实标签监督相当的性能。

0 人收藏 0 人点赞

#data-selection

MIRA：面向源感知数据选择的中间训练评分锚定方法

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

MIRA是一个用于大语言模型开发中间训练阶段的数据选择框架，它自适应地按数据源构建质量评分标准，使用教师模型提出维度并蒸馏为轻量级评分器。与全语料训练相比，仅使用一半的token即可实现更优性能。

0 人收藏 0 人点赞

#data-selection

SLAP：用于在线策略数据高效指令微调的分层损失剪枝方法

arXiv cs.CL ↗ · 2026-05-26 缓存

提出SLAP，一种用于大型语言模型高效指令微调的新型数据选择框架，它评估批次可学习性并采用分层采样，以在减少20-40%训练数据的情况下实现卓越性能。

0 人收藏 0 人点赞

#data-selection

从参数到数据：一种任务参数引导的高效LLM对齐微调流水线

arXiv cs.LG ↗ · 2026-05-22 缓存

P2D是一个统一框架，利用任务敏感的注意力头进行数据选择和结构剪枝，通过仅更新10%的头部和10%的数据，实现了8.3个百分点的性能提升和7.0倍的加速。

0 人收藏 0 人点赞

#data-selection

面向LLM推理的统一数据选择

arXiv cs.CL ↗ · 2026-05-22 缓存

本文提出高熵总和（HES），这是一种无需训练的度量方法，用于为LLM训练选择高质量推理数据，并在SFT、RFT和RL等范式中得到验证。

0 人收藏 0 人点赞

#data-selection

Weasel：基于重要性与多样性的数据选择实现Web代理的域外泛化

arXiv cs.LG ↗ · 2026-05-21 缓存

Weasel是一种用于Web代理离线训练的轨迹选择方法，通过平衡重要性与多样性来提升域外泛化能力。该方法在多个基准测试中实现了高达12.5倍的训练加速并提升了性能。

0 人收藏 0 人点赞

#data-selection

# 大语言模型预训练的数据混合：综述与展望来源：[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要：大型语言模型（LLMs）依赖于在海量且异构的语料上进行预训练，在现实中的计算和数据预算限制下，训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同，数据混

0 人收藏 0 人点赞

#data-selection

动态自适应采样：用于数学推理的自感知迭代数据持久优化

arXiv cs.CL ↗ · 2026-04-20 缓存

SAI-DPO 引入了一个动态采样框架，在数学推理任务中根据模型不断演进的能力自适应调整训练数据，利用自感知难度指标和知识语义对齐在 AIME24 和 AMC23 等基准上以更少的数据实现最先进的效率。

0 人收藏 0 人点赞

data-selection

提交意见反馈