HiLo-Token: 输入自适应高低频令牌压缩实现高效图像编辑

Hugging Face Daily Papers 2026/06/11 00:00 论文

摘要

HiLo-Token 提出了一种面向扩散变换器的输入自适应令牌压缩框架，为高频区域分配更多令牌，在图像编辑任务中实现高达 3.13 倍的加速且无质量损失。

创意图像编辑工具，例如 Photoshop 的移除或生成填充按钮，是日常客户使用的核心功能，并占据了 Photoshop 和 Lightroom 流量的主要份额。然而，当前的生成式 AI 模型面临显著的延迟挑战，当从基于卷积的 U-Net 过渡到扩散变换器（DiT）时，这一问题变得更加突出。在我们对数百个覆盖不同掩码比例的典型图像编辑样本进行的评估中，即使经过从 50 个时间步压缩到 8 个时间步的蒸馏，DiT 模块本身平均仍占模型总延迟的 73%。为应对这一挑战，我们提出了 HiLo-Token，一种输入自适应的令牌压缩框架，它将更多令牌预算分配给高频、丰富上下文区域，同时为低频区域分配较少的令牌。具体来说，对于用户掩码指定的编辑区域，我们保留扩展掩码内的所有令牌，以保持强局部性和上下文相关性。在编辑区域之外，我们引入了一种基于空间频率的简单而有效的高频令牌选择策略，以捕捉重要的局部细节，同时使用来自 16 倍下采样图像的令牌来表示低频分量，保留模糊但全局的结构。在生产级评估数据上的大量实验验证了所提出方法的有效性，在 A100-80GB 上，对于小、中、大掩码比例类别（平均比例分别为 6.38%、15.92% 和 35.36%）的图像编辑任务，分别实现了 3.13 倍、2.59 倍和 1.67 倍的 DiT 加速，且生成质量没有任何下降。

查看原文

查看缓存全文

缓存时间: 2026/06/18 19:58

论文页面 - HiLo-Token: 基于输入自适应的高低频Token压缩实现高效图像编辑

来源：https://huggingface.co/papers/2606.13898

摘要

本文提出了一种名为 HiLo-Token 的新型 Token 压缩框架，通过在图像编辑任务中根据空间频率和上下文重要性自适应分配 Token，在不损失质量的前提下实现了显著的加速效果。

创意图像编辑工具（如 Photoshop 的“移除”或“生成式填充”按钮）是日常用户使用的核心功能，在 Photoshop 和 Lightroom 中的流量占比很大。然而，当前生成式 AI 模型面临严重的延迟挑战，当从基于卷积的 U-Net 转向扩散变换器时，这一问题更加突出。在我们对数百个代表性图像编辑样本（覆盖广泛掩码比例）的评估中，即便 DiT 模块已从 50 个时间步蒸馏至 8 个时间步，其单独仍占模型总延迟的平均 73%。为应对这一挑战，我们提出了 HiLo-Token，一种输入自适应的 Token 压缩框架，该框架将更多 Token 预算分配给高频、丰富上下文的区域，同时为低频区域分配较少的 Token。具体而言，对于用户掩码指定的编辑区域，我们在膨胀后的掩码内保留所有 Token，以保持强局部性和上下文相关性。在编辑区域之外，我们引入了一种基于空间频率的简单而有效的高频 Token 选择策略，以捕获重要的局部细节，同时使用来自 16 倍下采样图像的 Token 表示低频成分，并保留模糊但全局的结构。在面向生产级的评估数据上进行的大量实验验证了所提方法的有效性，在 A100-80GB 上，针对小、中、大掩码比例类别（平均比例分别为 6.38%、15.92% 和 35.36%）的图像编辑任务，分别实现了 3.13 倍、2.59 倍和 1.67 倍的 DiT 加速，且生成质量无任何退化。

查看 arXiv 页面 (https://arxiv.org/abs/2606.13898)
查看 PDF (https://arxiv.org/pdf/2606.13898)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13898)

在您的 Agent 中获取本文：

hf papers read 2606.13898

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

暂无模型关联本论文

请在一个模型的 README.md 中引用 arxiv.org/abs/2606.13898 以将其链接至此页面。

引用本文的数据集 0

暂无数据集关联本论文

请在一个数据集的 README.md 中引用 arxiv.org/abs/2606.13898 以将其链接至此页面。

引用本文的 Space 0

暂无 Space 关联本论文

请在一个 Space 的 README.md 中引用 arxiv.org/abs/2606.13898 以将其链接至此页面。

包含本文的收藏集 0

暂无收藏集包含本论文

请将本文添加到一个收藏集 (https://huggingface.co/new-collection) 中以将其链接至此页面。

HiLo-Token: 输入自适应高低频令牌压缩实现高效图像编辑

论文页面 - HiLo-Token: 基于输入自适应的高低频Token压缩实现高效图像编辑

摘要

引用本文的模型 0

引用本文的数据集 0

引用本文的 Space 0

包含本文的收藏集 0

相似文章

基于时间冗余掩蔽和潜在修补的自适应令牌化 [R]

EarlyTom：早期Token压缩实现快速视频理解

InsightTok：在离散标记化中提升文本与人脸保真度以改进自回归图像生成

Compute Optimal Tokenization (2分钟阅读)

利用自引导标记化平衡图像压缩与生成

提交意见反馈