能将任意图像转化为可玩幻觉的扩散模型!但本地运行,非数据中心
摘要
一种扩散模型,能将任意图像转化为交互式可玩幻觉,在用户本地硬件上运行。
暂无内容
相似文章
最强本地AI图像生成器来了!
Ernie Image,全新开源扩散模型,文字渲染与提示词忠实度全面超越Zage,可在ComfyUI本地运行,仅需约20 GB显存。
将任意图像转化为可玩游戏的深度神经网络!全部在消费级GPU上运行,而非数据中心
作者介绍了一个小型基于Transformer的神经网络,从零开始训练,能够将任意图像转化为可玩游戏,在RTX 5090等消费级GPU上实时运行。该模型使用自回归解码和KV缓存,但目前存在运动和上下文问题。
为什么 DDIM 比 DDPM 产生更多幻觉:逆向动力学的理论分析
本文提供了理论分析,解释了为什么在扩散模型中,确定性的 DDIM 采样器比随机性的 DDPM 采样器产生更多的幻觉,将其归因于在逆向动力学过程中卡在模态插值区域。
PiD:基于像素扩散的快速高分辨率潜在解码
PiD 提出了一种像素扩散解码器,将潜在解码重新定义为条件像素扩散,从而在高分辨率下实现快速、高质量的图像合成,并降低计算需求。在消费级硬件上,它能在不到一秒内将潜在表示解码为 4 倍或 8 倍放大图像。
扩散模型中减少幻觉的分数控制
本文介绍了方差引导的分数调制(VSM),通过控制分数函数的平滑度来减少扩散模型中的幻觉,在保持图像质量的同时实现了高达约25%的减少。