step-level-verification

#step-level-verification

通过严格步骤级验证评估研究级数学证明

arXiv cs.AI ↗ · 4天前缓存

本文介绍了一种严格的步骤级验证框架，用于评估使用LLM的研究级数学证明，解决了上下文污染问题，并优于全局评估。该方法将重点转向演绎约束，并揭示了剩余错误通常源于学究式过度严谨，暴露了基准中的隐含歧义。

0 人收藏 0 人点赞