知道何时放弃:通过多阶段飞行中拒绝实现令牌高效的LLM合成数据生成
摘要
本文提出了多阶段飞行中拒绝(MSIFR),一种无需训练的框架,通过在中间检查点检测并终止低质量生成轨迹来减少基于LLM的合成数据生成中的令牌浪费。在五个模型和七个基准测试中,MSIFR作为独立方法可减少11%-77%的令牌消耗,与早期退出方法结合时最多减少78.2%,同时保持或提升准确率。
arXiv:2605.14062v1 公告类型:新
摘要:虽然使用大型语言模型(LLM)进行合成数据生成在后训练流水线中广泛应用,但现有方法通常先生成完整输出再应用质量过滤器,导致最终被丢弃的样本产生大量令牌浪费。为解决这一问题,我们提出了多阶段飞行中拒绝(MSIFR),一种轻量级、无需训练的框架,在生成轨迹到达完全完成之前,在中间检查点检测并终止低质量的生成轨迹。MSIFR将生成过程分解为连续阶段,并应用基于规则的快速验证器来识别算术不一致、幻觉模式和格式违规,从而实现对错误样本的早期拒绝。我们将飞行中拒绝形式化为一个序列决策过程,并表明任何非平凡的丢弃策略都能降低预期令牌消耗,且当拒绝发生在生成流水线更早阶段时,逐阶段节省增加。我们进一步证明条件效用估计形成一个鞅,确保早期飞行中拒绝不会使保留样本的预期效用产生偏差。在五个指令微调模型和七个推理基准测试中,MSIFR作为独立方法可减少11%-77%的令牌消耗,与早期退出方法结合时最多减少78.2%,同时保持或提升评估准确率。这些结果证实,MSIFR提供了一种实用机制,能够在无需额外训练或架构更改的情况下提高基于LLM的合成数据生成的效率。
查看缓存全文
缓存时间: 2026/05/15 06:20
# Know When To Fold ’Em: Token-Efficient LLM Synthetic Data Generation via Multi-Stage In-Flight Rejection 来源:https://arxiv.org/html/2605.14062 **Anjir Ahmed Chowdhury** Department of Computer Science University of Houston aachowd4@cougarnet\.uh\.edu & **Syed Zawad** IBM Research szawad@ibm\.com 使用脚注提供作者更多信息(主页、替代地址)——*并非*用于感谢资助机构。 ###### 摘要 尽管使用大语言模型(LLM)进行合成数据生成在后训练流程中被广泛使用,现有方法通常先生成完整输出,再应用质量过滤,导致大量 token 浪费于最终被丢弃的样本上。为解决此问题,我们提出**多阶段飞行中拒绝(MSIFR)**,一种轻量级、无需训练的框架,可在中间检查点检测并终止低质量生成轨迹,避免其完成完整生成。MSIFR 将生成过程分解为多个连续阶段,并应用基于规则的快速验证器来检查算术不一致、幻觉模式及格式违规,从而允许早期拒绝有缺陷的样本。我们将飞行中拒绝形式化为一个序列决策过程,并证明任何非平凡的丢弃策略都能降低期望 token 消耗,且当拒绝发生在生成管线的更早阶段时,逐阶段节省效果更显著。我们进一步证明条件效用估计构成一个鞅,确保早期飞行中拒绝不会导致保留样本的期望效用产生偏差。在五种指令微调模型和七个推理基准上,MSIFR 作为独立方法可将 token 消耗降低 11%–77%,与提前退出方法结合时最高可达 78.2%,同时保持或提升评估准确率。这些结果证实,MSIFR 提供了一种实用的机制,无需额外训练或架构更改即可提高基于 LLM 的合成数据生成的效率。 ## 1 引言 参考图 1:MSIFR 显著降低了生成成本,同时在各项基准上保持有竞争力的性能,token 减少最高达 78%,准确率仅略有变化,在多个案例中准确率相比基线提升高达 +8.6 个百分点。 大语言模型(LLM)的有效性从根本上依赖于训练数据的数量和质量,这一关系由神经缩放定律[Kaplan 等人,2020](https://arxiv.org/html/2605.14062#bib.bib21)形式化。然而,在包含监督微调和基于人类反馈的强化学习(RLHF)的后训练领域,高质量人工标注数据由于隐私约束、领域专业知识要求以及高昂的标注成本而稀缺[Tang 等人,2025](https://arxiv.org/html/2605.14062#bib.bib26);[Das 等人,2025](https://arxiv.org/html/2605.14062#bib.bib28);[Jalli,2025](https://arxiv.org/html/2605.14062#bib.bib29)。LLM 拥有独特的双重能力,既能消费也能生成类似人类的文本和代码,这使得它们在真实数据获取成本高昂或不可行的任务中成为有吸引力的数据生成器。与其手动标注数千个示例,不如提示 LLM 大规模合成多样化的标注实例[Czibula 等人,2025](https://arxiv.org/html/2605.14062#bib.bib30);[Divekar 和 Durrett,2024](https://arxiv.org/html/2605.14062#bib.bib31);[Alsakran 和 Alabduljabbar,2025](https://arxiv.org/html/2605.14062#bib.bib32)。因此,在过去几年中,LLM 社区越来越多地转向使用 LLM 生成的内容来增强真实数据有限的训练。领先模型,包括 LLaMA[Dubey 等人,2024a](https://arxiv.org/html/2605.14062#bib.bib22)、Falcon[Almazrouei 等人,2023](https://arxiv.org/html/2605.14062#bib.bib23)、Qwen[Bai 等人,2023](https://arxiv.org/html/2605.14062#bib.bib24) 和 GPT-4[OpenAI 等人,2024](https://arxiv.org/html/2605.14062#bib.bib25),均报告在后训练中使用了合成数据,近期工作进一步证明了其对模型性能的影响,仅需 20,000 个指令-响应对即可[Tang 等人,2025](https://arxiv.org/html/2605.14062#bib.bib26);[2024](https://arxiv.org/html/2605.14062#bib.bib27),使其在低资源场景下非常高效,降低了标注成本,并实现了数据增强以提高鲁棒性[Czibula 等人,2025](https://arxiv.org/html/2605.14062#bib.bib30);[Jalli,2025](https://arxiv.org/html/2605.14062#bib.bib29);[Tang 等人,2025](https://arxiv.org/html/2605.14062#bib.bib26)。 然而,使用 LLM 作为数据生成器引入了质量控制和计算效率方面的关键挑战。并非所有生成的样本都具有相同价值,因为有缺陷或低质量的问题-解答对可能通过向训练信号中引入噪声而损害模型性能。此外,LLM 推理的计算成本与生成的 token 数量成正比。继续生成不连贯或错误的样本会浪费 token,而这些 token 本可以分配给更高质量的生成,考虑到后训练所需的巨大计算预算,这是一个严峻的问题。通过根据逻辑不一致、算术错误或格式违规等标准在早期识别并丢弃薄弱样本,生成管线可以防止在无前途的轨迹上进行昂贵的后续扩展。这降低了总体 token 消耗,同时提高了训练数据的有效质量。模型从更干净的学习信号中受益,从而获得更好的泛化能力和更稳定的优化,而系统则实现了计算成本与下游性能之间更有利的权衡。 现有提前退出方法[Akgül 等人,2025](https://arxiv.org/html/2605.14062#bib.bib33);[Dai 等人,2025](https://arxiv.org/html/2605.14062#bib.bib34);[Yang 等人,2025](https://arxiv.org/html/2605.14062#bib.bib44);[Laaouach,2025](https://arxiv.org/html/2605.14062#bib.bib36)(例如,S-GRPO 在单次查询上实现了 40–61% 的序列长度缩减)在推理时对单个查询进行操作。然而,与先前那些缩短正确推理轨迹的工作不同,我们采用一种独特的新颖方法:**识别并终止有缺陷的轨迹,避免其产生完整生成成本**,这与现有的提前退出策略相比节省了大量资源。 我们提出**多阶段飞行中拒绝(MSIFR)**,一种轻量级、验证驱动的框架,用于合成问题-解答生成,在问题阶段和中间解答阶段主动过滤低质量样本,避免完成完整生成。与先完整生成解答再应用质量检查的传统方法不同,MSIFR 将生成分解为连续阶段,并在每个阶段后进行验证,检查算术一致性、幻觉指标和格式正确性。如果样本未通过任何检查,生成立即终止,避免在无效轨迹上消耗 token。这种设计消除了对复杂强化学习控制的需求,同时利用结构化决策点尽早剪枝低劣生成。通过将验证驱动的拒绝标准直接集成到生成循环中,MSIFR 减少了不必要的 token 使用,避免了噪声或错误数据的传播,并确保只有高质量的问题-解答对才会被完全生成并保留。由于我们方法的策略完全不同,它实际上可以作为现有技术的补充框架,实现无缝集成和叠加的性能增益,我们在结果中展示了这一点。 我们在五种指令微调模型上评估 MSIFR:Qwen2.5-7B[Team,2025](https://arxiv.org/html/2605.14062#bib.bib1)、Meta Llama-3.1-8B[Dubey 等人,2024c](https://arxiv.org/html/2605.14062#bib.bib8)、DeepSeek-7B[Bi 等人,2024](https://arxiv.org/html/2605.14062#bib.bib9)、Microsoft Phi-3-mini[Abdin 等人,2024](https://arxiv.org/html/2605.14062#bib.bib10) 和 Mistral-7B[Jiang 等人,2023](https://arxiv.org/html/2605.14062#bib.bib11),覆盖七个涵盖数学推理和科学知识的基准:GSM8K[Cobbe 等人,2021](https://arxiv.org/html/2605.14062#bib.bib12)、MATH500[Hendrycks 等人,2021](https://arxiv.org/html/2605.14062#bib.bib13)、SVAMP[Patel 等人,2021](https://arxiv.org/html/2605.14062#bib.bib15)、MAWPS[Koncel-Kedziorski 等人,2016](https://arxiv.org/html/2605.14062#bib.bib16)、MathQA[Amini 等人,2019](https://arxiv.org/html/2605.14062#bib.bib17)、MMLU-Chem[Hendrycks 等人,2020](https://arxiv.org/html/2605.14062#bib.bib14) 以及 DeepMind 数学数据集[Saxton 等人,2019](https://arxiv.org/html/2605.14062#bib.bib18)。与传统的完整生成管线相比,MSIFR 作为独立方法可将 token 消耗降低 11%–77%(在 GSM8K 上最高达 42%),与提前退出方法结合时最高可达 78.2%,同时在所有基准上保持或提升评估准确率。我们的贡献如下: - • 我们引入了 MSIFR,一种多阶段验证框架,在合成数据生成期间执行飞行中拒绝,减少了 token 使用且无需额外训练。 - • 我们提供了早期拒绝的决策理论公式,推导了逐阶段 token 节省分解,强调了早期阶段过滤的重要性。 - • 我们证明条件效用估计构成一个鞅,确保早期拒绝保留了无偏的期望效用。 - • 我们在多个模型和基准上实证展示了持续的 token 节省和稳定的准确率,并证明 MSIFR 能与现有提前退出方法有效组合。 ## 2 相关工作 我们将工作定位在两个最直接相关的研究方向内:中间生成过滤与对不可靠轨迹的动态弃权,以及合成数据质量控制。 ### 2.1 思维链推理中的提前退出 越来越多的工作致力于解决过度思考问题,即推理模型在得出正确答案后仍继续生成冗余 token。 **基于探针的提前退出。** LYNX[Akgül 等人,2025](https://arxiv.org/html/2605.14062#bib.bib33) 将退出决策附加到自然出现的推理线索上,在隐藏状态上训练轻量级探针,并将得分包装在分割共形预测中,以实现对过早退出的无分布控制。 **基于强化学习的提前退出。** S-GRPO[Dai 等人,2025](https://arxiv.org/html/2605.14062#bib.bib34) 引入了群体奖励衰减以鼓励早期终止,在 GSM8K、AIME 2024 和 MATH-500 上将序列长度减少了 40–61%,同时提高了准确率。DEER[Yang 等人,2025](https://arxiv.org/html/2605.14062#bib.bib44) 使用转移 token 上基于熵的置信度来决定是否停止。Think-or-Not[Yong 等人,2025](https://arxiv.org/html/2605.14062#bib.bib45) 对候选后续进行树搜索以选择推理模式。FlashThink[Jiang 等人,2025](https://arxiv.org/html/2605.14062#bib.bib46) 在部分推理链上查询验证器,以更早的停止决策来权衡推理成本。 **PRM 引导的提前停止。** ZGES[Vishwakarma 等人,2025](https://arxiv.org/html/2605.14062#bib.bib39) 使用局部奖励 z 分数检测 PRM 引导的束搜索中的质量峰值,显示出与步骤质量 >0.91 的皮尔逊相关性。 **无需训练的提前退出。** HALT-CoT[Laaouach,2025](https://arxiv.org/html/2605.14062#bib.bib36) 在每个推理步骤后计算答案分布上的香农熵,当熵低于阈值时停止,无需训练。[Wang 和 Zhu,2026](https://arxiv.org/html/2605.14062#bib.bib38) 识别出检测-提取差距,其中 52–88% 的 CoT token 是在答案已经从部分前缀中可恢复后生成的,并利用这种不对称性截断 70–78% 的生成,同时将准确率提高 1–5 个百分点。TERMINATOR[Nagle 等人,2025](https://arxiv.org/html/2605.14062#bib.bib35) 基于首个答案 token 的出现学习最优停止位置。 ### 2.2 中间生成过滤与动态弃权 最相关的工作方向涉及终止**无前途的轨迹**,这些轨迹无论进一步生成如何,都不太可能产生正确答案,这一设置与我们的问题公式非常接近。 **基于学习奖励的早期拒绝。** [Khan 等人,2025](https://arxiv.org/html/2605.14062#bib.bib4) 在中间生成阶段应用 PRM 来拒绝次优候选,在完整的推理步骤完成之前进行,证明丢弃最优束的风险随生成长度呈指数下降。 **基于置信度的中间生成过滤。** DeepConf[Zhao 等人,2025](https://arxiv.org/html/2605.14062#bib.bib7) 将并行思维与基于置信度的过滤相结合,利用模型内部 token 分布在生成期间或之后丢弃低质量推理轨迹,在 AIME 2025 上实现高达 84.7% 的 token 缩减,无需额外训练。与 MSIFR 不同,DeepConf 在推理时针对单个推理任务操作,并依赖学习到的置信信号而非轻量级基于规则的验证器。 **原则性弃权。** [Nachshon 等人,2026](https://arxiv.org/html/2605.14062#bib.bib40) 在 KL 正则化 RL 框架内形式化动态弃权,证明值阈值化严格优于固定位置弃权,并在 OlympiadBench 上以 90% 的弃权率实现了高达 91% 的选择性准确率。[Liao 等人,2025](https://arxiv.org/html/2605.14062#bib.bib41) 表明,第一步错误会不成比例地降低最终答案质量,并提出基于奖励模型的第一步选择,在不损失准确率的情况下实现高达 70% 的推理成本降低。这两项工作都针对推理时的推理,并需要训练过的奖励组件,而 MSIFR 完全无需训练,并在数据集构建层面操作。 **基于澄清的弃权。** Abstain-R1[Zhai 等人,2026](https://arxiv.org/html/2605.14062#bib.bib42) 研究了针对不可回答查询的校准弃权,使用基于澄清的 RLVR 奖励,在 Abstain-Test、Abstain-QA 和 SelfAware 上实现了与更大的系统(包括 DeepSeek-R1)相竞争的行为。这项工作解决了针对不可回答输入的弃权这一互补问题,而不是过滤低质量的生成轨迹。 ### 2.3 MSIFR 的定位 提前退出方法优化了在推理时终止正确但冗长的轨迹,因此不解决有缺陷数据生成的问题。早期拒绝方法[Khan 等人,2025](https://arxiv.org/html/2605.14062#bib.bib4) 和 DeepConf[Zhao 等人,2025](https://arxiv.org/html/2605.14062#bib.bib7) 在中间生成过程中丢弃无前途的轨迹,但依赖于训练过的模型组件,并且是为单次查询推理而非大规模数据集构建而设计。动态弃权[Nachshon 等人,2026](https://arxiv.org/html/2605.14062#bib.bib40) 为停止决策提供了坚实的理论基
相似文章
并非所有Token都同等重要:通过强化学习中的Token重要性实现高效LLM推理
本文提出了一个强化学习框架,通过建模Token重要性来选择性地对不重要的Token进行惩罚,同时保留关键推理步骤,采用重要性感知奖励和动态长度奖励来减少冗余,在不牺牲准确性的前提下提高效率。
我认为“使用更少的token”作为LLM成本建议过于肤浅
本文认为,常见的专注于减少token的LLM成本建议过于肤浅,而在生产环境中更具影响力的策略是,将不同的工作流步骤路由到不同的模型,而不是使用单一的默认模型。
超越熵:从令牌级分布偏差中学习以提升LLM推理
提出独立组合令牌(ICT)框架,利用令牌logit分布之间的Jensen-Shannon散度识别关键分支点,防止RLVR在LLM推理中的熵坍缩和熵爆炸。在Qwen模型上实现了高达14.9%的pass@4改进。
修剪不安全票:一种资源高效的框架,用于更安全、更鲁棒的大型语言模型
本文介绍了一种资源高效的修剪框架,该框架能够识别并移除大型语言模型中与不安全行为相关的参数,同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角,在最小化性能损失的前提下,显著减少了不安全内容的生成,并增强了对越狱攻击的鲁棒性。
面向高效全模态LLM的阶段自适应Token选择方法
SEATS是一种无需训练的阶段自适应Token选择方法,通过逐步剪枝冗余的视觉和音频Token来降低全模态LLM的计算开销,实现了9.3倍FLOPs减少和4.8倍预填充加速,同时保持96.3%的性能。