program-verification

标签

Cards List
#program-verification

程序验证的智能体证明

arXiv cs.AI · 2026-05-25 缓存

本文在Clever基准的程序验证任务中,采用智能体证明框架评估Claude Code,在规范生成和端到端验证方面取得了超过98%的成功率,揭示出现有基准可能不足以评估现代智能体证明器的能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈