step-level-verification

标签

Cards List
#step-level-verification

通过严格步骤级验证评估研究级数学证明

arXiv cs.AI · 4天前 缓存

本文介绍了一种严格的步骤级验证框架,用于评估使用LLM的研究级数学证明,解决了上下文污染问题,并优于全局评估。该方法将重点转向演绎约束,并揭示了剩余错误通常源于学究式过度严谨,暴露了基准中的隐含歧义。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈