divergence-regularization

标签

#divergence-regularization

重新思考LLM强化学习中的散度正则化

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

本文介绍了DRPO，它用平滑的优势加权二次正则化器替代了DPPO中的硬掩码，通过提供信任区域边界之外的连续梯度校正，提高了LLM强化学习的稳定性和效率。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈