AI逻辑的蛮力方法确实遇到了瓶颈
摘要
文章认为自回归语言模型无法真正理解形式数学,需要验证方法,并引用了诸如Aleph等依赖严格数学证明的系统。
老实说,我受够了这种论调:认为只要给自回归模型投喂足够多的GPU和数据,它终将觉醒并真正理解形式数学。当然,它能够生成一个React组件。但当你需要绝对正确、不容丝毫偏差时,整个下一个词预测的假象就会崩塌。我最近读到像Aleph这样的系统如何攻克大规模形式推理基准测试,其底层技术实际上必须依赖严格的数学验证,而不是仅仅猜测最听起来合理的文本序列。如果我们认为标准的大型语言模型能够在行业从根本上改变这些架构先自我验证逻辑之前,安全地运行关键基础设施,那绝对是在自欺欺人。
相似文章
对于AI推理的“只需增加更多算力”的论点正变得越来越令人厌倦。
对AI推理扩展论点的一个批判性观点,认为自回归LLM无法仅通过增加计算量来实现正确性,并强调替代架构如EBM和形式验证在关键应用中更为优越。
"AI解决了数学最重大的挑战之一,但无法可靠地计算两个数的相加?!" [D]
讨论了AI系统能解决复杂数学问题却难以完成基本算术(如两数相加)这一明显矛盾。
Open ai
文章讨论了行业共识:人工智能正变得极其强大,但在高风险任务上的可靠性仍是一个未解决的工程问题。强调当前系统优化的是合理性而非确定性真理,前进方向是分层验证系统而非单一完美模型。
人类在高度严谨的数学测试中仍优于AI
首次 Proof 测试评估了四种AI系统在新型研究级数学问题上的表现,其中最佳模型仅得6分(满分10分),表明当前AI在严谨推理方面仍落后于顶尖数学家。
@logic_int: Aleph,我们全自主的AI智能体系统,用于形式验证,在所有主要定理证明基准测试中表现出色,包括…
Aleph,一个全自主的AI智能体系统,用于形式验证,在包括PutnamBench、VeriSoftBench和Verina在内的主要定理证明基准测试中取得了顶尖性能。