math-benchmarks

标签

Cards List
#math-benchmarks

知道何时停止:用于减少过度思考的段级信用分配

arXiv cs.CL · 昨天 缓存

本文介绍了DASH,一种利用推理轨迹中的中间答案承诺来分配段级信用的方法,可减少过度思考行为并提高竞赛级数学基准的准确性。

0 人收藏 0 人点赞
#math-benchmarks

从自身错误中学习:为自蒸馏构建可学习的微反思轨迹

Hugging Face Daily Papers · 2026-06-17 缓存

本文提出了轨迹增强策略优化(TAPO),该方法利用模型自身正确和错误的展开构建微反思修正轨迹,以提高大型语言模型的推理能力,在数学基准测试上优于标准自蒸馏方法。

0 人收藏 0 人点赞
#math-benchmarks

多少思考才算够?量化与理解LLM推理中的冗余

arXiv cs.AI · 2026-05-26 缓存

本文形式化了LLM中的推理冗余,将其定义为在不影响正确性的情况下可截断的尾部步骤比例,在多个前沿模型上量化出61%-93%的冗余,并证明冗余是长度无关结果奖励的结构性后果。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈