policy-level-diversity

#policy-level-diversity

小型模型是GRPO中策略级多样性的自然探索器

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

S2L-PO框架利用小型模型作为自然探索器，增强GRPO中的策略多样性，以训练大型语言模型。它实现了更快的收敛，并在降低rollout计算量的同时，提高了数学推理基准的准确性。

0 人收藏 0 人点赞