标签
介绍TUBE,一种用于离散扩散语言模型的对数似然变分上界,实现更好的评估,并揭示掩码扩散模型仍不如自回归模型。
本文通过指出基于似然的机器生成文本检测器在 token 分数聚合中存在的辛普森悖论,解决了此类检测器性能下降的问题。本文提出了一种学习到的局部校准步骤,显著提升了各种模型和数据集上的检测性能。
本文提出使用退火重要性采样(Annealed Importance Sampling)来评估基于解码器的生成模型(VAE、GAN等)的对数似然,解决了难以计算似然估计的问题。作者验证了该方法的有效性,并提供了评估代码来分析模型性能、过拟合情况和模式覆盖度。