标签
介绍 GORMPO,一种密度正则化的离线强化学习算法,使用生成式密度建模将策略更新限制在高密度区域,在真实世界医疗数据集上实现17%的提升,并超越最先进的基线模型。
本文提出了 PCNet,这是一种在大型语言模型(LLM)残差流上训练为可计算密度估计器的概率电路,用于将幻觉检测为几何异常。同时,本文还引入了 PC-LDCD,一种仅在生成幻觉 token 时才进行干预的动态修正方法,实现了近乎完美的检测率并降低了错误修正率。
FFJORD 引入了一种可扩展的可逆生成模型,使用连续动力学和 Hutchinson 迹估计器实现无偏对数密度估计,无需架构约束。该方法在密度估计和图像生成方面达到了最先进的结果,同时保持高效的采样。