标签
本文提出了隐式变分拒绝采样(Implicit Variational Rejection Sampling, IVRS),该方法将隐式分布与拒绝采样相结合,以改进变分推断中的后验近似,并引入了隐式重采样证据下界(Implicit Resampling Evidence Lower Bound, IR-ELBO)作为更紧的变分下界。
本文提出了多阶段飞行中拒绝(MSIFR),一种无需训练的框架,通过在中间检查点检测并终止低质量生成轨迹来减少基于LLM的合成数据生成中的令牌浪费。在五个模型和七个基准测试中,MSIFR作为独立方法可减少11%-77%的令牌消耗,与早期退出方法结合时最多减少78.2%,同时保持或提升准确率。
本文介绍了 Entrocraft,这是一种用于强化学习的拒绝采样方法,通过控制熵调度来防止大语言模型的性能饱和。该方法展示了更强的泛化能力和更长的训练寿命,使较小规模的模型能够超越较大的基线模型。