标签
本文介绍了一种名为向量策略优化(Vector Policy Optimization, VPO)的强化学习算法,该算法通过优化多个奖励维度来训练大语言模型生成多样化的解决方案,与标量强化学习基线相比,显著提升了测试时搜索性能。
# 论文页面 - (1D) 有序词元实现高效测试时搜索 来源:[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要 具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳,并在与图文验证器结合后,实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归(AR)生成模型的关键组件,将原始