math-benchmarks

#math-benchmarks

知道何时停止：用于减少过度思考的段级信用分配

arXiv cs.CL ↗ · 昨天缓存

本文介绍了DASH，一种利用推理轨迹中的中间答案承诺来分配段级信用的方法，可减少过度思考行为并提高竞赛级数学基准的准确性。

0 人收藏 0 人点赞

#math-benchmarks

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

本文提出了轨迹增强策略优化（TAPO），该方法利用模型自身正确和错误的展开构建微反思修正轨迹，以提高大型语言模型的推理能力，在数学基准测试上优于标准自蒸馏方法。

0 人收藏 0 人点赞

#math-benchmarks

arXiv cs.AI ↗ · 2026-05-26 缓存

本文形式化了LLM中的推理冗余，将其定义为在不影响正确性的情况下可截断的尾部步骤比例，在多个前沿模型上量化出61%-93%的冗余，并证明冗余是长度无关结果奖励的结构性后果。

0 人收藏 0 人点赞