使用扩散模型生成/编辑AST?[D]

Reddit r/MachineLearning 新闻

摘要

一位用户提议使用扩散模型生成或编辑抽象语法树(AST),以确保代码生成的语法正确性,并与当前LLM基于token的限制形成对比。

我并非机器学习专家,但我很喜欢学习它的运作方式。我注意到,LLM生成代码的一个主要限制在于:它们的输入和输出空间是训练数据中所有token组成的空间。这意味着LLM生成语法不正确的代码是完全可能且可能的。我在想,或许可以创建某种架构(扩散模型可能是一个好范式),其中抽象语法树的生成或编辑能在每一步都保证语法正确性。这样一来,用于通过生成过程解决逻辑问题的模型或许可以用更少(甚至为零)的训练数据达到高效。我认为扩散模型可以实现这一点,因为我知道,对于任何给定指令集,当节点数固定时,AST的数量是有限的;算法的任务就是在这个空间中搜索最佳选项,类似于图像生成模型在其图像空间中搜索以匹配给定描述。大家怎么看?另外,如果发错版块请见谅,我最近才重新开始活跃在Reddit上。
查看原文

相似文章

扩散语言模型:实验分析

arXiv cs.AI

一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。