rejection-sampling

标签

Cards List
#rejection-sampling

Implicit Variational Rejection Sampling

arXiv cs.LG · 2026-06-15 缓存

本文提出了隐式变分拒绝采样(Implicit Variational Rejection Sampling, IVRS),该方法将隐式分布与拒绝采样相结合,以改进变分推断中的后验近似,并引入了隐式重采样证据下界(Implicit Resampling Evidence Lower Bound, IR-ELBO)作为更紧的变分下界。

0 人收藏 0 人点赞
#rejection-sampling

知道何时放弃:通过多阶段飞行中拒绝实现令牌高效的LLM合成数据生成

arXiv cs.AI · 2026-05-15 缓存

本文提出了多阶段飞行中拒绝(MSIFR),一种无需训练的框架,通过在中间检查点检测并终止低质量生成轨迹来减少基于LLM的合成数据生成中的令牌浪费。在五个模型和七个基准测试中,MSIFR作为独立方法可减少11%-77%的令牌消耗,与早期退出方法结合时最多减少78.2%,同时保持或提升准确率。

0 人收藏 0 人点赞
#rejection-sampling

通过精确的熵曲线控制解决大语言模型强化学习的性能饱和问题

Hugging Face Daily Papers · 2026-05-10 缓存

本文介绍了 Entrocraft,这是一种用于强化学习的拒绝采样方法,通过控制熵调度来防止大语言模型的性能饱和。该方法展示了更强的泛化能力和更长的训练寿命,使较小规模的模型能够超越较大的基线模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈