标签
本文介绍了DASH,一种利用推理轨迹中的中间答案承诺来分配段级信用的方法,可减少过度思考行为并提高竞赛级数学基准的准确性。
本文提出了轨迹增强策略优化(TAPO),该方法利用模型自身正确和错误的展开构建微反思修正轨迹,以提高大型语言模型的推理能力,在数学基准测试上优于标准自蒸馏方法。
本文形式化了LLM中的推理冗余,将其定义为在不影响正确性的情况下可截断的尾部步骤比例,在多个前沿模型上量化出61%-93%的冗余,并证明冗余是长度无关结果奖励的结构性后果。