使用扩散模型生成/编辑AST?[D]
摘要
一位用户提议使用扩散模型生成或编辑抽象语法树(AST),以确保代码生成的语法正确性,并与当前LLM基于token的限制形成对比。
我并非机器学习专家,但我很喜欢学习它的运作方式。我注意到,LLM生成代码的一个主要限制在于:它们的输入和输出空间是训练数据中所有token组成的空间。这意味着LLM生成语法不正确的代码是完全可能且可能的。我在想,或许可以创建某种架构(扩散模型可能是一个好范式),其中抽象语法树的生成或编辑能在每一步都保证语法正确性。这样一来,用于通过生成过程解决逻辑问题的模型或许可以用更少(甚至为零)的训练数据达到高效。我认为扩散模型可以实现这一点,因为我知道,对于任何给定指令集,当节点数固定时,AST的数量是有限的;算法的任务就是在这个空间中搜索最佳选项,类似于图像生成模型在其图像空间中搜索以匹配给定描述。大家怎么看?另外,如果发错版块请见谅,我最近才重新开始活跃在Reddit上。
相似文章
扩散语言模型:实验分析
一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。
自己从零写扩散语言模型比我想的简单多了[P]
开发者分享了一个极简的750万参数扩散语言模型,用莎士比亚文本从头训练,并开源代码供学习。
语言生成作为最优控制:潜在控制空间中的闭环扩散
本文将语言生成重新表述为随机最优控制问题,解决了自回归和扩散模型的局限性,并提出了使用Flow Matching在潜在控制空间中的闭环扩散方法,实现了高保真生成和高效并行采样。
EPIC: 在上下文无关文法约束下的扩散语言模型高效并行推理
本文介绍了EPIC,一个用于扩散语言模型中上下文无关文法约束解码的高效框架,在保持语法正确性的同时,将推理时间最多减少67.5%。
扩散语言模型中用于Token编辑的自生成错误训练
提出了自生成T2T(Self-Generated T2T)训练方法,该方法通过使用模型自身的预测作为错误源,使Token编辑训练与推理对齐,从而提高了LLaDA2.1的准确性。