利用测试时训练线性化视觉Transformer

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

本文提出了一种方法，将预训练的Softmax注意力模型转换为线性复杂度的测试时训练（TTT）架构，在显著加速推理的同时，实现了与微调Softmax模型相当的文生图质量。该方法通过对Stable Diffusion 3.5进行线性化得到SD3.5-T^5，在1K分辨率下实现1.32倍加速。

虽然线性复杂度的注意力机制为克服二次瓶颈提供了有希望的替代方案，但从头训练此类模型仍然代价高昂。从预训练Transformer继承权重提供了一个诱人的捷径，但Softmax与线性注意力之间的根本表示差距阻碍了有效的权重迁移。在这项工作中，我们从两个角度解决这一转换挑战：架构对齐和表示对齐。我们确定测试时训练（TTT）是一种线性复杂度的架构，其两层动态公式在结构上与Softmax注意力对齐，从而能够直接继承预训练的注意力权重。为了进一步对齐表示特性，包括关键移位不变性和局部性，我们引入了关键实例归一化和一个轻量级的局部性增强模块。我们通过对Stable Diffusion 3.5进行线性化来验证我们的方法，并引入了SD3.5-T^5（Transformer To Test Time Training）。仅在4×H20 GPU上微调1小时，SD3.5-T^5就达到了与微调Softmax模型相当的文生图质量，同时在1K和2K分辨率下分别实现了1.32倍和1.47倍的推理加速。代码可在https://github.com/LeapLabTHU/Transformer-to-TTT获取。

查看原文

查看缓存全文

缓存时间: 2026/06/02 03:24

论文页面 - 通过测试时训练线性化视觉Transformer

来源：https://huggingface.co/papers/2605.02772

摘要

研究人员开发了一种方法，通过架构对齐和表示对齐，将预训练的Softmax注意力模型转换为线性复杂度的测试时训练（Test-Time Training）架构，以最少的微调实现快速推理。

虽然线性复杂度注意力机制（https://huggingface.co/papers?q=linear-complexity%20attention）为克服二次瓶颈提供了一种有前景的Softmax注意力（https://huggingface.co/papers?q=Softmax%20attention）替代方案，但从头训练此类模型仍然成本高昂。继承预训练Transformer的权重提供了一条捷径，但Softmax注意力和线性注意力之间根本性的表示差异（https://huggingface.co/papers?q=representational%20gap）阻碍了有效的权重迁移（https://huggingface.co/papers?q=weight%20transfer）。在这项工作中，我们从两个角度解决这一转换挑战：架构对齐和表示对齐。我们将测试时训练（Test-Time Training, TTT）（https://huggingface.co/papers?q=Test-Time%20Training）确定为一种线性复杂度架构，其双层动态公式（https://huggingface.co/papers?q=two-layer%20dynamic%20formulation）在结构上与Softmax注意力（https://huggingface.co/papers?q=Softmax%20attention）对齐，从而可以直接继承预训练的注意力权重。为进一步对齐表示属性，包括关键的平移不变性和局部性，我们引入了关键实例归一化（https://huggingface.co/papers?q=key%20instance%20normalization）和一个轻量级的局部性增强模块（https://huggingface.co/papers?q=locality%20enhancement%20module）。我们通过线性化Stable Diffusion 3.5（https://huggingface.co/papers?q=Stable%20Diffusion%203.5）来验证我们的方法，并推出了SD3.5-T^5（Transformer到测试时训练）。在4块H20 GPU上仅微调1小时后，SD3.5-T^5在文本到图像质量上与微调后的Softmax模型相当，同时在1K和2K分辨率下分别实现了1.32倍和1.47倍的推理加速。代码可在https://github.com/LeapLabTHU/Transformer-to-TTT获取。

查看arXiv页面（https://arxiv.org/abs/2605.02772）查看PDF（https://arxiv.org/pdf/2605.02772）GitHub7（https://github.com/LeapLabTHU/Transformer-to-TTT）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.02772）

在您的代理中获取此论文：

hf papers read 2605.02772

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有链接此论文的模型

在模型README.md中引用arxiv.org/abs/2605.02772以从此页面链接。

引用此论文的数据集0

没有链接此论文的数据集

在数据集README.md中引用arxiv.org/abs/2605.02772以从此页面链接。

引用此论文的Spaces0

没有链接此论文的Space

在Space README.md中引用arxiv.org/abs/2605.02772以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将这篇论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

利用测试时训练线性化视觉Transformer

论文页面 - 通过测试时训练线性化视觉Transformer

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

LLT: 用于PDE算子学习的局部线性Transformer

Lens：重新思考基础文本到图像模型的训练效率

训练、阅读和编辑可解释的Transformer

U-TTT：通过测试时训练实现可泛化的PET图像去噪

@VukRosic99: 长上下文Transformer面临两大瓶颈：二次注意力计算和KV缓存（在1M tokens时可达数百GB）…

提交意见反馈