group-relative-policy-optimization

标签

Cards List
#group-relative-policy-optimization

超越标量距离:来自冻结MLLM的语义属性梯度用于视觉嵌入

Hugging Face Daily Papers · 2026-06-13 缓存

SAGA框架利用冻结的多模态大语言模型,通过分组相对策略优化为视觉编码器提供属性感知监督,在细粒度基准上将零样本图像检索性能提升3-6个百分点。

0 人收藏 0 人点赞
#group-relative-policy-optimization

小型模型是GRPO中策略级多样性的自然探索器

Hugging Face Daily Papers · 2026-06-02 缓存

S2L-PO框架利用小型模型作为自然探索器,增强GRPO中的策略多样性,以训练大型语言模型。它实现了更快的收敛,并在降低rollout计算量的同时,提高了数学推理基准的准确性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈