标签
本文提出CAT,一种跨尺度对齐变换器,通过强制中间GAN输出与最终输出之间的一致性来解决轨迹错位问题,在ImageNet-256上实现了1.56的最优FID。
本文提出一种嵌套时空预测框架,利用谱聚类构建语义一致的宏观区域,为细粒度的微观预测提供自上而下的指导。在高维数据集上的实验表明,该方法始终优于最先进的基线模型。
HL-OutPaint 是一个面向高分辨率长时视频的由粗到细视频外扩框架,利用全局粗粒度引导实现大空间外推,同时保持时空一致性。
# 论文页面 - (1D) 有序词元实现高效测试时搜索 来源:[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要 具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳,并在与图文验证器结合后,实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归(AR)生成模型的关键组件,将原始