标签
本文介绍了一种严格的步骤级验证框架,用于评估使用LLM的研究级数学证明,解决了上下文污染问题,并优于全局评估。该方法将重点转向演绎约束,并揭示了剩余错误通常源于学究式过度严谨,暴露了基准中的隐含歧义。