test-time-search

#test-time-search

向量策略优化：面向多样性的训练提升测试时搜索性能

Reddit r/LocalLLaMA ↗ · 2026-05-22 缓存

本文介绍了一种名为向量策略优化（Vector Policy Optimization, VPO）的强化学习算法，该算法通过优化多个奖励维度来训练大语言模型生成多样化的解决方案，与标量强化学习基线相比，显著提升了测试时搜索性能。

0 人收藏 0 人点赞

#test-time-search

(1D) 有序词元实现高效测试时搜索

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

# 论文页面 - (1D) 有序词元实现高效测试时搜索来源：[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳，并在与图文验证器结合后，实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归（AR）生成模型的关键组件，将原始

0 人收藏 0 人点赞

test-time-search

向量策略优化：面向多样性的训练提升测试时搜索性能

(1D) 有序词元实现高效测试时搜索

提交意见反馈