@logic_int: Aleph,我们全自主的AI智能体系统,用于形式验证,在所有主要定理证明基准测试中表现出色,包括…
摘要
Aleph,一个全自主的AI智能体系统,用于形式验证,在包括PutnamBench、VeriSoftBench和Verina在内的主要定理证明基准测试中取得了顶尖性能。
查看缓存全文
缓存时间: 2026/05/15 02:58
Aleph——我们用于形式验证的全自主AI智能体系统——在包括PutnamBench、VeriSoftBench和Verina在内的所有主要定理证明基准测试中均拔得头筹。https://t.co/spIql8Pf4g
相似文章
@logic_int: 新消息:Aleph Prover 已形式化 OpenAI 对保罗·埃尔德什平面单位问题的反证。我们正在发布形式化…
Aleph Prover 已在 Lean 4 中形式化了 OpenAI 对保罗·埃尔德什平面单位问题的反证,并将其作为开源发布以供独立验证,展示了人工智能在加速数学研究中的作用,同时提供了可验证的证明数据。
@Kseniase_: EBM强势回归!@ylecun多年来一直指出:AI推理需要先检查结构再作答的系统……
Aleph 是一个新型形式化推理AI系统,在主要基准测试中领先,证实了 Yann LeCun 对基于能量模型(EBM)的AI推理的强调。
@rohanpaul_ai: Google DeepMind 的新论文。表明人工智能现在可以搜索形式化数学证明,但仅限于精心限制的范围内……
Google DeepMind 的新论文介绍了 AlphaProof Nexus,这是一个结合了 LLM 与 Lean 证明检查器的 AI 系统,用于在受限的数学领域中搜索形式化证明。该系统解决了来自 Erdős 和 OEIS 集合的几个未解问题,展示了一种新的分工:AI 提出候选证明,验证器确保正确性。
程序验证的智能体证明
本文在Clever基准的程序验证任务中,采用智能体证明框架评估Claude Code,在规范生成和端到端验证方面取得了超过98%的成功率,揭示出现有基准可能不足以评估现代智能体证明器的能力。
OProver:一个统一的代理式形式定理证明框架
OProver是一个统一的框架,用于Lean 4中的代理式形式定理证明,通过使用经过验证的证明和编译器反馈进行训练,迭代地改进证明生成,在多个基准测试中取得了最先进的结果。