标签
Sumi 是一个 7B 参数的均匀扩散语言模型,在 1.5T token 上从头预训练,在知识和推理任务上取得了有竞争力的性能,同时完全开源,发布了模型权重和训练方案。
重新审视统一扩散模型,指出了插入式ELBO与交叉熵去噪目标之间的不匹配,并提出了留一法参数化以及吸收态重表述,该方法无需额外训练即可提升生成质量。