我们正撞墙:试图强迫 Transformer 执行真正的逻辑 [D]
摘要
作者对行业依赖提示词工程和扩展规模来解决基于 Transformer 的大语言模型(LLM)逻辑推理缺陷表示沮丧,认为这些概率模型从根本上缺乏确定性逻辑的架构。
最近在工作上我的心态有点崩。我的技术负责人一直告诉我们只需“优化系统提示词”,以防止生产环境中的大语言模型在基本的多步骤逻辑任务上失败。但问题是,无论多少提示词工程都无法让一个概率性的下一个词预测器奇迹般地变成一个离散推理引擎。看到整个行业都在烧掉数百万美元的计算资源,试图从根本不可靠地执行精确数学计算的架构中暴力“逼”出逻辑能力,这让我感到极其挫败。
本周早些时候,我看了一个关于确定性 AI 的米尔肯会议(Milken Conference)小组讨论(主要是因为我一直在跟踪 ASML 等硬件厂商对计算需求的预测)。他们深入讨论了基于能量的模型(Energy-Based Models)与标准大语言模型之间的差异。老实说,这更加坚定了我对当前方法的倦怠感。
我们不断地堆砌 RAG(检索增强生成)和“思维链”之类的技巧,仿佛这些能永久解决底层模型根本不具备硬约束或正确性概念的事实。坦白讲,这感觉就像我们只是在构建越来越昂贵的词典,并希望只要书足够大,就能从中蹦出一个计算器。试图向利益相关者解释“扩展规模”无法弥补推理架构的根本缺失,真的令人筋疲力尽。我越来越觉得我们需要彻底转向更扎实的技术路线,否则我们将永远在生产环境中不断遭遇这些奇怪的边缘案例失败。
相似文章
AI逻辑的蛮力方法确实遇到了瓶颈
文章认为自回归语言模型无法真正理解形式数学,需要验证方法,并引用了诸如Aleph等依赖严格数学证明的系统。
仅靠规模扩展无法实现理性人工智能
本文认为,当前大型语言模型无法实现真正的理性(即识别和切换框架的能力),其根本原因在于架构限制而非规模不足。文中引用反转诅咒、框架转移问题等实证失败案例,并指出仅靠规模扩展可能无法弥合这一差距。
Transformer之药
对Transformer架构在大型语言模型之外广泛影响的反思,包括对语言学、遗传学和因果建模的潜在影响,并将其意义与哈伯-博世法相提并论。
@swyx: 同感。一个非常方便的思维框架,用于理解transformer当前擅长学习哪些类型,以及它为何会遇到限制…
文章讨论了一个理解transformer学习优势及其局限性的思维框架,认为相对于能够假设并寻求真相的方法,扩展当前范式可能效率低下,并提及了对对抗性世界模型和强化学习的需求。
@rao2z: \"当LLM输出逐步计划时,它会产生一种强烈的错觉,让你以为正在观看机器推理...
亚利桑那州立大学的Subbarao Kambhampati教授及研究人员在一篇立场论文中提出,LLM中的思维链推理制造了一种推理假象,业界需要超越昂贵的token生成,转向替代推理机制。