标签
提出NF-CoT,一种使用归一化流来建模LLMs中连续思维的潜在推理框架,保留了自回归优势,并以更低的成本实现了更好的代码生成性能。
提出了一种用于训练输入凸神经网络(ICNN)的“提升”方法,该方法使用无约束的超网络生成非负的层间权重,从而软化损失景观并避免梯度衰减,相比投影梯度下降和softplus重参数化,实现了更低的测试损失。
本文介绍了归一化轨迹模型(NTM),这是一种基于扩散生成的新颖方法,它将反向步骤建模为具有精确似然训练的有条件归一化流。NTM 仅需四个步骤即可实现高质量的文本到图像生成,同时保留了似然框架,在标准基准测试中优于基线方法。
STARFlow2 是一项新的研究论文,介绍了一种将语言模型与自回归归一化流相结合的架构,用于统一的多模态生成。它通过使用共享的因果掩码机制处理交错的文本-图像序列,解决了现有系统中的结构不匹配问题。
FFJORD 引入了一种可扩展的可逆生成模型,使用连续动力学和 Hutchinson 迹估计器实现无偏对数密度估计,无需架构约束。该方法在密度估计和图像生成方面达到了最先进的结果,同时保持高效的采样。