HiLo-Token: 输入自适应高低频令牌压缩实现高效图像编辑
摘要
HiLo-Token 提出了一种面向扩散变换器的输入自适应令牌压缩框架,为高频区域分配更多令牌,在图像编辑任务中实现高达 3.13 倍的加速且无质量损失。
查看缓存全文
缓存时间: 2026/06/18 19:58
论文页面 - HiLo-Token: 基于输入自适应的高低频Token压缩实现高效图像编辑
来源:https://huggingface.co/papers/2606.13898
摘要
本文提出了一种名为 HiLo-Token 的新型 Token 压缩框架,通过在图像编辑任务中根据空间频率和上下文重要性自适应分配 Token,在不损失质量的前提下实现了显著的加速效果。
创意图像编辑工具(如 Photoshop 的“移除”或“生成式填充”按钮)是日常用户使用的核心功能,在 Photoshop 和 Lightroom 中的流量占比很大。然而,当前生成式 AI 模型面临严重的延迟挑战,当从基于卷积的 U-Net 转向扩散变换器时,这一问题更加突出。在我们对数百个代表性图像编辑样本(覆盖广泛掩码比例)的评估中,即便 DiT 模块已从 50 个时间步蒸馏至 8 个时间步,其单独仍占模型总延迟的平均 73%。为应对这一挑战,我们提出了 HiLo-Token,一种输入自适应的 Token 压缩框架,该框架将更多 Token 预算分配给高频、丰富上下文的区域,同时为低频区域分配较少的 Token。具体而言,对于用户掩码指定的编辑区域,我们在膨胀后的掩码内保留所有 Token,以保持强局部性和上下文相关性。在编辑区域之外,我们引入了一种基于空间频率的简单而有效的高频 Token 选择策略,以捕获重要的局部细节,同时使用来自 16 倍下采样图像的 Token 表示低频成分,并保留模糊但全局的结构。在面向生产级的评估数据上进行的大量实验验证了所提方法的有效性,在 A100-80GB 上,针对小、中、大掩码比例类别(平均比例分别为 6.38%、15.92% 和 35.36%)的图像编辑任务,分别实现了 3.13 倍、2.59 倍和 1.67 倍的 DiT 加速,且生成质量无任何退化。
查看 arXiv 页面 (https://arxiv.org/abs/2606.13898)
查看 PDF (https://arxiv.org/pdf/2606.13898)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13898)
在您的 Agent 中获取本文:
hf papers read 2606.13898
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型 0
暂无模型关联本论文
请在一个模型的 README.md 中引用 arxiv.org/abs/2606.13898 以将其链接至此页面。
引用本文的数据集 0
暂无数据集关联本论文
请在一个数据集的 README.md 中引用 arxiv.org/abs/2606.13898 以将其链接至此页面。
引用本文的 Space 0
暂无 Space 关联本论文
请在一个 Space 的 README.md 中引用 arxiv.org/abs/2606.13898 以将其链接至此页面。
包含本文的收藏集 0
暂无收藏集包含本论文
请将本文添加到一个收藏集 (https://huggingface.co/new-collection) 中以将其链接至此页面。
相似文章
基于时间冗余掩蔽和潜在修补的自适应令牌化 [R]
本文提出了一种自适应视频令牌化方法,利用潜在空间中的时间冗余动态分配令牌,实现高效压缩,无需辅助网络。所提出的潜在修补变压器(Latent Inpainting Transformer)重建被丢弃的位置,相比ElasticTok-CV实现31倍加速,相比InfoTok实现2倍加速。
EarlyTom:早期Token压缩实现快速视频理解
EarlyTom是一个无需训练即可在视觉编码器早期压缩视觉token的框架,可减少首个token生成时间和计算成本,同时保持准确性,实现高达2.65倍的TTFT降低。
InsightTok:在离散标记化中提升文本与人脸保真度以改进自回归图像生成
InsightTok 引入内容感知的感知损失,改进离散视觉标记化以更好地重建文本和人脸,从而提升自回归图像生成质量。
Compute Optimal Tokenization (2分钟阅读)
本文通过训练近1300个模型,系统推导了压缩感知的神经缩放定律,证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律,为跨多样语言和模态的计算高效训练提供了新框架。
利用自引导标记化平衡图像压缩与生成
介绍了SelfBootTok,一种自引导标记化方法,它将全局和局部信息分离,使生成器计算量减少约40%,仅用64个标记即实现了1.56的gFID新最先进水平。