training-inference-mismatch

标签

Cards List
#training-inference-mismatch

诊断大语言模型强化学习中的训练-推理不匹配

arXiv cs.LG · 2026-05-15 缓存

本文诊断了大语言模型强化学习中的训练-推理不匹配(TIM),表明训练和推理阶段令牌概率之间的微小数值差异可能导致训练崩溃,并提出了补救措施。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈