使用扩散模型生成/编辑AST?[D]

Reddit r/MachineLearning 新闻

摘要

一位用户提议使用扩散模型生成或编辑抽象语法树(AST),以确保代码生成的语法正确性,并与当前LLM基于token的限制形成对比。

我并非机器学习专家,但我很喜欢学习它的运作方式。我注意到,LLM生成代码的一个主要限制在于:它们的输入和输出空间是训练数据中所有token组成的空间。这意味着LLM生成语法不正确的代码是完全可能且可能的。我在想,或许可以创建某种架构(扩散模型可能是一个好范式),其中抽象语法树的生成或编辑能在每一步都保证语法正确性。这样一来,用于通过生成过程解决逻辑问题的模型或许可以用更少(甚至为零)的训练数据达到高效。我认为扩散模型可以实现这一点,因为我知道,对于任何给定指令集,当节点数固定时,AST的数量是有限的;算法的任务就是在这个空间中搜索最佳选项,类似于图像生成模型在其图像空间中搜索以匹配给定描述。大家怎么看?另外,如果发错版块请见谅,我最近才重新开始活跃在Reddit上。
查看原文

相似文章

DALM:一种通过三阶段结构化生成的领域代数语言模型

arXiv cs.CL

DALM提出了一种领域代数语言模型,在由领域格导出的精确结构约束下生成文本,通过将知识组织到具有代数保证的独立领域纤维中来解决幻觉问题。该模型使用三阶段结构化去噪(领域→关系→概念),并使用领域标注的训练数据防止跨领域污染。

扩散模型作为通用分割学习器

Hugging Face Daily Papers

本文介绍了 DiGSeg 框架,该框架利用潜在空间条件控制和文本引导对齐,将预训练的扩散模型重新用于实现最先进的语义分割和开放词汇分割。