标签
本文介绍了“Pigeonholing”这一现象,即不良提示导致大语言模型崩溃并重复错误,造成38-40%的性能下降。跨越10个任务和10个模型的实验表明,随着对话轮次增加,问题恶化,并提出了结合合成错误的RLVR作为缓解措施。
本文诊断了LLM生成故事的低多样性问题,发现88.3%的采样故事包含11个常见词汇之一(例如埃利亚斯、灯塔),且这些词汇在不同模型间普遍存在,并将这种同质性归因于后训练数据和对齐,而非预训练数据中的普遍存在。
本文识别了同策略强化学习方法(如GRPO)中的模式崩溃问题,并提出了DMPO,该方法通过近似前向KL散度最小化来保持解的多样性。在NP难组合优化和数学推理任务上取得了显著改进。