当科学发现没有标准答案时,我们如何验证人工智能提出的假设

Reddit r/artificial 新闻

摘要

探讨了在科学发现中验证人工智能生成假设的挑战——当不存在基准真相时如何应对,并介绍了Apodex的多智能体方法,即使用独立的验证智能体作为解决方案。

我一直在思考人工智能驱动科学发现的实际局限性,特别是当模型提出真正新颖的假设、而根本不存在“标准答案”时,我们该如何评估它们。当我们用标准基准测试大语言模型时,我们有包含已知解的干净数据集。但如果让前沿模型去提出一种用于碳捕集的新型化合物,或者发现一个未被记录的生物通路,那么在文献中根本找不到基准真相。通常的直接反应是“只要进行物理实验就行了”。但湿实验室极度缓慢且昂贵。你不可能盲目地合成成千上万的候选化合物。这意味着人工智能在科学领域的瓶颈不在于我们生成假设的能力,而在于我们在绝对不确定性下验证它们的能力。检查模型输出的传统方法是自我反思或自我评分。但这对于发现来说是一条死胡同。如果你让模型自己复查它提出的化学结构,它会有与最初生成时完全相同的理论盲点。它只会更大声地赞同自己。我最近读到本月早些时候推出的一个新多智能体研究引擎——Apodex,它非常依赖这种分工。它不是让单一模型完成全部工作,而是使用完全不了解生成器内部提示的独立验证智能体。验证者的任务是接收提出的假设,从基本原理出发重新推导底层的物理逻辑,并找出矛盾。这些矛盾随后作为约束条件反馈给生成器,用于修订回合。与自我检查不同,将验证作为一个完全独立、对抗性的步骤,是从这些模型中真正挖掘出科学内容的唯一方式。如果我们无法验证,就无法真正发现。如果人工智能没有独立的检查器,那我们只是在生成高度合理的猜测。你们的团队是如何应对这一转变的?当模型在你们的研究中提出候选解决方案时,在你们投入实际的物理或计算资源进行测试之前,你们采用的证据标准是什么?
查看原文

相似文章

验证前沿:编码智能体奖励并无银弹

Hugging Face Daily Papers

本文探讨了验证AI编码智能体输出的挑战,认为随着模型改进,验证正变得比生成更困难。它分析了四种奖励构建方式,并表明随着模型能力的增长,没有固定奖励函数能保持有效。

Open ai

Reddit r/ArtificialInteligence

文章讨论了行业共识:人工智能正变得极其强大,但在高风险任务上的可靠性仍是一个未解决的工程问题。强调当前系统优化的是合理性而非确定性真理,前进方向是分层验证系统而非单一完美模型。

如何提高AI代理的可靠性?

Reddit r/AI_Agents

讨论将AI代理从沙箱迁移到生产环境所面临的挑战,强调高敏感性导致大量噪声,并提出解决方案,如二级评估器、启发式方法和级联架构。同时向社区询问他们的过滤方法。