当科学发现没有标准答案时，我们如何验证人工智能提出的假设

Reddit r/artificial 2026/06/26 09:32 新闻

ai-science scientific-discovery hypothesis-verification multi-agent apodex ai-limits

摘要

探讨了在科学发现中验证人工智能生成假设的挑战——当不存在基准真相时如何应对，并介绍了Apodex的多智能体方法，即使用独立的验证智能体作为解决方案。

我一直在思考人工智能驱动科学发现的实际局限性，特别是当模型提出真正新颖的假设、而根本不存在“标准答案”时，我们该如何评估它们。当我们用标准基准测试大语言模型时，我们有包含已知解的干净数据集。但如果让前沿模型去提出一种用于碳捕集的新型化合物，或者发现一个未被记录的生物通路，那么在文献中根本找不到基准真相。通常的直接反应是“只要进行物理实验就行了”。但湿实验室极度缓慢且昂贵。你不可能盲目地合成成千上万的候选化合物。这意味着人工智能在科学领域的瓶颈不在于我们生成假设的能力，而在于我们在绝对不确定性下验证它们的能力。检查模型输出的传统方法是自我反思或自我评分。但这对于发现来说是一条死胡同。如果你让模型自己复查它提出的化学结构，它会有与最初生成时完全相同的理论盲点。它只会更大声地赞同自己。我最近读到本月早些时候推出的一个新多智能体研究引擎——Apodex，它非常依赖这种分工。它不是让单一模型完成全部工作，而是使用完全不了解生成器内部提示的独立验证智能体。验证者的任务是接收提出的假设，从基本原理出发重新推导底层的物理逻辑，并找出矛盾。这些矛盾随后作为约束条件反馈给生成器，用于修订回合。与自我检查不同，将验证作为一个完全独立、对抗性的步骤，是从这些模型中真正挖掘出科学内容的唯一方式。如果我们无法验证，就无法真正发现。如果人工智能没有独立的检查器，那我们只是在生成高度合理的猜测。你们的团队是如何应对这一转变的？当模型在你们的研究中提出候选解决方案时，在你们投入实际的物理或计算资源进行测试之前，你们采用的证据标准是什么？

查看原文

当科学发现没有标准答案时，我们如何验证人工智能提出的假设

相似文章

如果 AI 代理无处不在，我们如何知道哪些值得信任？

AI科学家何时应停止？面向自主发现的可验证实验引导与拒绝机制

验证前沿：编码智能体奖励并无银弹

Open ai

如何提高AI代理的可靠性？

提交意见反馈