标签
IDEAL提出了一种用于离散表示自编码的深度对齐框架,联合对齐量化令牌与浅层和深层VFM特征,以实现卓越的重建和生成性能。
提出AE-YOLO,一种注意力引导自编码器增强的YOLO框架,用于无人机输电线路图像中鲁棒的绝缘子缺陷检测,在[email protected]上达到95.10%,比YOLO基线高出5个百分点。
本文介绍了MilliVid,一种通过使用多尺度自编码器将帧压缩为分层标记,然后使用由粗到细的扩散模型生成它们,从而提升视频生成中长程一致性的方法,在Minecraft视频上超越了基线模型。
SwiftVR 是一个实时的一步生成式视频修复框架,利用高效注意力机制和轻量级修复感知自编码器,在消费级 GPU 上实现了高帧率。
介绍了SelfBootTok,一种自引导标记化方法,它将全局和局部信息分离,使生成器计算量减少约40%,仅用64个标记即实现了1.56的gFID新最先进水平。
本文提出了一种循环空间检测器(CSD),用于检测电力系统中的盲虚假数据注入攻击,其中自动编码器生成与测量雅可比零空间对齐的隐蔽扰动。CSD利用拓扑导出的循环约束来提高检测能力,且无需精确的线路参数。
提出了CALAD,一个用于多变量时间序列异常检测的通道感知对比学习框架,该框架利用估计的通道相关性构建对比样本,实现了最先进的性能。
Tadpole提出了一种针对3D偏微分方程的基础模型,通过高效的在线数据生成作为自编码器进行预训练,无需存储开销即可实现大规模多样化训练。该模型在异构物理系统的动力学学习和生成建模方面展现出强大的微调性能。
本文提出了 DRoRAE,这是一种通过融合预训练视觉编码器中的多层特征(而非仅依赖最后一层)来改善视觉标记化的方法。该方法在 ImageNet 上展示了重构和生成质量的显著提升,并确立了融合容量与性能之间的缩放定律。
本文探讨了VQ-VAE中常见的维度坍塌问题,指出模型表示通常局限于低维子空间。研究提出了一种“自编码器预热(AE Warm-Up)”策略,即首先将模型作为未量化的自编码器进行训练,从而提升重建质量并增加潜在空间的有效维度。
本文介绍了一种多项式自编码器,通过利用二次解码器捕捉非线性方差,在压缩 Transformer 嵌入方面改进了传统的 PCA 方法。在 BEIR 基准测试中的结果表明,该方法在保持高压缩率的同时,其检索质量显著优于标准 PCA 和 Matryoshka 嵌入。
本文介绍了 DALL-E 的架构,重点阐述其 Transformer 组件如何将语言与离散图像表示相关联,从而根据文本提示生成高质量图像。