agentic-proving

#agentic-proving

程序验证的智能体证明

arXiv cs.AI ↗ · 2026-05-25 缓存

本文在Clever基准的程序验证任务中，采用智能体证明框架评估Claude Code，在规范生成和端到端验证方面取得了超过98%的成功率，揭示出现有基准可能不足以评估现代智能体证明器的能力。

0 人收藏 0 人点赞

#agentic-proving

Hugging Face Daily Papers ↗ · 2026-05-17 缓存

OProver是一个统一的框架，用于Lean 4中的代理式形式定理证明，通过使用经过验证的证明和编译器反馈进行训练，迭代地改进证明生成，在多个基准测试中取得了最先进的结果。

0 人收藏 0 人点赞