mathematical-proofs

#mathematical-proofs

Mask-Proof: 一种基于LLM的数学证明自动化数据梳理流水线

arXiv cs.AI ↗ · 2026-06-16 缓存

介绍Mask-Proof，一种基于LLM的流水线，可将数学证明转化为掩码步骤任务用于自动评估，并呈现MaskProofBench，一个包含292个精选问题的基准测试，与专家标注者的一致性达到96.8%。

0 人收藏 0 人点赞

#mathematical-proofs

arXiv cs.CL ↗ · 2026-06-16 缓存

本文评估了在全局和局部扰动下，Lean 4中证明自动形式化模型的鲁棒性，发现当前基于LLM的模型对扰动敏感，且常常无法忠实地反映局部变化。

0 人收藏 0 人点赞

#mathematical-proofs

arXiv cs.AI ↗ · 2026-06-10 缓存

本文介绍了一种严格的步骤级验证框架，用于评估使用LLM的研究级数学证明，解决了上下文污染问题，并优于全局评估。该方法将重点转向演绎约束，并揭示了剩余错误通常源于学究式过度严谨，暴露了基准中的隐含歧义。

0 人收藏 0 人点赞

#mathematical-proofs

OpenAI Blog ↗ · 2026-02-20 缓存

OpenAI 为 First Proof 挑战提交了证明尝试，该挑战是一项研究级别的数学竞赛，旨在测试 AI 是否能生成正确且可验证的证明。OpenAI 的内部模型成功解决了至少五个问题（共十个），展示了其在持续推理和严谨数学思维方面的显著进展。

0 人收藏 0 人点赞