divergence-regularization

标签

Cards List
#divergence-regularization

重新思考LLM强化学习中的散度正则化

Hugging Face Daily Papers · 2026-06-08 缓存

本文介绍了DRPO,它用平滑的优势加权二次正则化器替代了DPPO中的硬掩码,通过提供信任区域边界之外的连续梯度校正,提高了LLM强化学习的稳定性和效率。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈