rejection-sampling

#rejection-sampling

Implicit Variational Rejection Sampling

arXiv cs.LG ↗ · 2026-06-15 缓存

本文提出了隐式变分拒绝采样（Implicit Variational Rejection Sampling, IVRS），该方法将隐式分布与拒绝采样相结合，以改进变分推断中的后验近似，并引入了隐式重采样证据下界（Implicit Resampling Evidence Lower Bound, IR-ELBO）作为更紧的变分下界。

0 人收藏 0 人点赞

#rejection-sampling

知道何时放弃：通过多阶段飞行中拒绝实现令牌高效的LLM合成数据生成

arXiv cs.AI ↗ · 2026-05-15 缓存

本文提出了多阶段飞行中拒绝（MSIFR），一种无需训练的框架，通过在中间检查点检测并终止低质量生成轨迹来减少基于LLM的合成数据生成中的令牌浪费。在五个模型和七个基准测试中，MSIFR作为独立方法可减少11%-77%的令牌消耗，与早期退出方法结合时最多减少78.2%，同时保持或提升准确率。

0 人收藏 0 人点赞

#rejection-sampling

通过精确的熵曲线控制解决大语言模型强化学习的性能饱和问题

Hugging Face Daily Papers ↗ · 2026-05-10 缓存

本文介绍了 Entrocraft，这是一种用于强化学习的拒绝采样方法，通过控制熵调度来防止大语言模型的性能饱和。该方法展示了更强的泛化能力和更长的训练寿命，使较小规模的模型能够超越较大的基线模型。

0 人收藏 0 人点赞

rejection-sampling

Implicit Variational Rejection Sampling

知道何时放弃：通过多阶段飞行中拒绝实现令牌高效的LLM合成数据生成

通过精确的熵曲线控制解决大语言模型强化学习的性能饱和问题

提交意见反馈