TTL：使用预训练视觉-语言模型的测试时文本学习框架用于OOD检测

arXiv cs.CL 2026/04/20 04:00 论文

摘要

TTL引入了一个测试时文本学习框架，用于使用CLIP等预训练视觉-语言模型进行OOD检测，该框架能够从未标记的测试流中动态学习OOD语义，无需外部OOD标签。该方法使用伪标记样本和OOD知识净化策略来提高检测的鲁棒性，应对多样化和不断演变的OOD分布。

arXiv:2604.15756v1 公告类型：新发布摘要：CLIP等视觉-语言模型(VLMs)通过对齐视觉和文本表示展现了强大的分布外(OOD)检测能力。最近的基于CLIP的测试时自适应方法通过引入外部OOD标签进一步改进了检测性能。然而，这些标签数量有限且固定，而真实的OOD语义空间本质上是开放式的。因此，固定标签无法表示测试流中遇到的多样化和不断演变的OOD语义。为了解决这一局限，我们引入了测试时文本学习(TTL)框架，该框架能够从未标记的测试流中动态学习OOD文本语义，无需依赖外部OOD标签。TTL使用伪标记的测试样本更新可学习的提示词，以捕捉新出现的OOD知识。为了抑制伪标签引入的噪声，我们引入了OOD知识净化策略，该策略选择可靠的OOD样本进行自适应，同时抑制噪声。此外，TTL维护一个OOD文本知识库，存储高质量的文本特征，为批次间的分数校准提供稳定支持。在两个标准基准和九个OOD数据集上的广泛实验表明，TTL始终达到最先进的性能，凸显了文本自适应在稳健的测试时OOD检测中的价值。我们的代码可在https://github.com/figec/TTL获取。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:28

# TTL：使用预训练视觉-语言模型进行OOD检测的测试时文本学习

来源：https://arxiv.org/html/2604.15756

Jinlun Ye1,3,5, Jiang Liao2, Runhe Lai1,3,5, Xinhua Lu1,3,5, Jiaxin Zhuang4, Zhiyong Gan2, Ruixuan Wang1,3,511脚注1

1中山大学 2中国联合网络通信有限公司广东分公司 3鹏城实验室 4香港科技大学 5教育部机器智能与高级计算重点实验室

[email protected], [email protected]

###### 摘要

视觉-语言模型（VLMs）如CLIP通过对齐视觉和文本表示展现出强大的分布外（OOD）检测能力。最近基于CLIP的测试时自适应方法通过引入外部OOD标签进一步改进了检测性能。然而，这些标签是有限且固定的，而真实的OOD语义空间本质上是开放式的。因此，固定的标签无法代表测试流中遇到的多样化和不断演变的OOD语义。为了解决这一限制，我们引入测试时文本学习（TTL），一个框架，它从无标注的测试流中动态学习OOD文本语义，无需依赖外部OOD标签。TTL使用伪标签的测试样本更新可学习的提示词，以捕获新兴的OOD知识。为了抑制伪标签引入的噪声，我们引入了OOD知识纯化策略，该策略选择可靠的OOD样本进行自适应，同时抑制噪声。此外，TTL维护一个OOD文本知识库，存储高质量的文本特征，在批次间提供稳定的分数校准。在两个标准基准和九个OOD数据集上的广泛实验表明，TTL持续实现最先进的性能，突出了文本自适应对于鲁棒测试时OOD检测的价值。我们的代码可在https://github.com/figec/TTL获得。

## 1 介绍

参考图1：与现有OOD自适应方法的比较。(a) 现有方法在固定文本空间内自适应视觉特征，仅限于适应落在这些预定义语义范围之外的样本。(b) 我们提出的TTL框架通过从无标注测试流中学习和纯化新的文本知识来执行测试时文本自适应。通过将这些可学习的OOD提示词与OOD伪标签图像对齐，它捕获跨批次更清晰的OOD知识并增强OOD检测性能。(c) 特征空间可视化显示TTL的自适应文本表示与现有方法相比如何更好地与图像特征对齐。

深度学习在训练和测试数据遵循相同分布的闭集场景中展现出卓越的性能。然而，当部署在开放世界环境中时，模型不可避免地会遇到来自未知类的OOD数据。严重的是，模型经常以高置信度将此类OOD样本误分类为分布内（ID）类[34](https://arxiv.org/html/2604.15756#bib.bib35),[15](https://arxiv.org/html/2604.15756#bib.bib36)，在自动驾驶和医学诊断等关键应用中造成严重的安全风险。因此，准确检测OOD数据对于在真实部署中确保AI系统的可靠性和安全性至关重要。

传统的OOD检测方法[15](https://arxiv.org/html/2604.15756#bib.bib36),[14](https://arxiv.org/html/2604.15756#bib.bib40),[26](https://arxiv.org/html/2604.15756#bib.bib38),[38](https://arxiv.org/html/2604.15756#bib.bib41)依赖于预训练的ID分类器，但仅限于视觉模态。CLIP[35](https://arxiv.org/html/2604.15756#bib.bib13)等VLM的出现使得能够利用多模态信息进行增强的OOD检测。最近的基于VLM的方法致力于通过外部图像或文本标签学习OOD知识[41](https://arxiv.org/html/2604.15756#bib.bib26),[17](https://arxiv.org/html/2604.15756#bib.bib8)，或仅从ID训练数据中提取此类知识，例如背景区域[31](https://arxiv.org/html/2604.15756#bib.bib19)或随机裁剪的图像[52](https://arxiv.org/html/2604.15756#bib.bib24)。然而，从特定数据集导出的OOD特征本质上无法捕获现实世界中遇到的无限OOD分布。

为了获得更实用的OOD知识，最近的方法采用测试时自适应来使VLM适应真实的OOD分布。一些直观的方法[5](https://arxiv.org/html/2604.15756#bib.bib28)使用伪标签的测试样本训练OOD检测器。然而，这些批次参数更新方法容易导致灾难性遗忘和不稳定的OOD检测性能[49](https://arxiv.org/html/2604.15756#bib.bib30)。为了缓解灾难性遗忘和检测波动，尽管OODD[49](https://arxiv.org/html/2604.15756#bib.bib30)仅在测试期间存储视觉特征，AdaNeg[53](https://arxiv.org/html/2604.15756#bib.bib31)通过将外部OOD文本语义与实际测试分布对齐来进一步利用文本模态，实现了更强的OOD检测性能。然而，AdaNeg依赖于有限且固定的OOD标签集来表示开放式的OOD语义空间，这在本质上是不足的。结果是，它难以适应落在这些预定义语义范围之外的OOD样本（如图1](https://arxiv.org/html/2604.15756#S1.F1)c所示），导致性能受限。

受提示词学习[56](https://arxiv.org/html/2604.15756#bib.bib14)的启发，微调提示词使文本特征能够更好地与实际数据分布对齐。因此，我们提出了一个自然的问题：直接从测试流中学习OOD文本语义——而不是将特定标签与OOD分布对齐——是否会产生更好的自适应结果？为此，我们提出了测试时文本学习（TTL），一个从无标注测试流中动态学习OOD文本语义的新框架，消除了对外部OOD标签的依赖。

我们的关键洞察在于学习一组包含多样化和更清晰OOD知识的OOD提示词，最终改进OOD检测性能。具体来说，我们为每个ID类引入一个可学习的OOD提示词。我们的TTL可以通过放大具有分配的OOD伪标签的测试样本与可学习OOD提示词之间的语义相似性来获得有价值的OOD文本语义。此外，我们提出了OOD知识纯化策略，通过减少OOD提示词与ID边界样本（即低置信伪OOD样本）之间的语义相似性来抑制伪标签中的噪声。这样，OOD提示词可以在测试流中学习更清晰的OOD知识，促进对ID和OOD数据的更高级的区分。

此外，为了确保稳定的检测和通过多样化分布提供更广泛的语义覆盖，TTL维护一个OOD文本知识库，该知识库保存了高质量OOD文本特征的动态存储库。在推理期间，OOD文本知识库用于校准最终的OOD检测分数。

我们的主要贡献可总结如下：

- •我们提出了测试时文本学习（TTL）框架，它从测试流中动态学习OOD文本语义，无需依赖外部OOD标签。
- •我们提出了一个新的纯化策略来减少伪标签噪声并获得更清晰的OOD知识。
- •跨多个基准的综合实验表明TTL相比最先进的方法实现了持续和显著的改进，包括FPR95的平均增益12.67%和AUROC的3.94%。

## 2 相关工作

**OOD检测**。传统的OOD检测方法聚焦于单模态图像分析，分为两类。第一种使用模型输出设计评分函数（例如逻辑、特征、层统计）[15](https://arxiv.org/html/2604.15756#bib.bib36),[25](https://arxiv.org/html/2604.15756#bib.bib54),[26](https://arxiv.org/html/2604.15756#bib.bib38),[38](https://arxiv.org/html/2604.15756#bib.bib41)。第二种通过各种训练策略探索ID-OOD决策边界[12](https://arxiv.org/html/2604.15756#bib.bib57),[30](https://arxiv.org/html/2604.15756#bib.bib58),[7](https://arxiv.org/html/2604.15756#bib.bib55),[6](https://arxiv.org/html/2604.15756#bib.bib56)。虽然取得了令人满意的结果，但它们忽视了文本模态的丰富语义信息，导致性能不理想[17](https://arxiv.org/html/2604.15756#bib.bib8)。

为了利用文本知识，最近的研究聚焦于采用具有强大多模态理解能力的CLIP[35](https://arxiv.org/html/2604.15756#bib.bib13)等视觉-语言模型。这些基于VLM的方法可以分为三种主要策略。概念匹配方法（如MCM[29](https://arxiv.org/html/2604.15756#bib.bib16)和CMA[21](https://arxiv.org/html/2604.15756#bib.bib17)）利用CLIP的图像-文本对齐基于类别名称或辅助概念生成OOD分数。GL-MCM[32](https://arxiv.org/html/2604.15756#bib.bib18)将MCM扩展到多目标场景。ID增强方法通过利用ID数据中的额外信息来改进判别。例如，FA[27](https://arxiv.org/html/2604.15756#bib.bib11)使用ID提示词作为可学习提示词优化的参考；LoCoOp[31](https://arxiv.org/html/2604.15756#bib.bib19)和SCT[51](https://arxiv.org/html/2604.15756#bib.bib20)采用熵最大化来降低背景敏感性；OSPCoOp[45](https://arxiv.org/html/2604.15756#bib.bib21)、IDLike[2](https://arxiv.org/html/2604.15756#bib.bib23)、Negprompt[22](https://arxiv.org/html/2604.15756#bib.bib10)和Local-Prompt[52](https://arxiv.org/html/2604.15756#bib.bib24)通过背景提取、图像裁剪或假设OOD分布与ID分布之间的关系生成伪OOD样本。基于外部知识的方法利用OOD相关信息改进OOD检测。例如，Neglabel[17](https://arxiv.org/html/2604.15756#bib.bib8)、CSP[8](https://arxiv.org/html/2604.15756#bib.bib72)和NegRefine[1](https://arxiv.org/html/2604.15756#bib.bib69)从大规模语料库中收集潜在的OOD标签，而CLIPN[41](https://arxiv.org/html/2604.15756#bib.bib26)从大规模数据集学习负提示词。APT[28](https://arxiv.org/html/2604.15756#bib.bib71)通过引入外部OOD数据采用熵最大化。然而，由于现实世界OOD分布的固有多样性和无限性，此类方法被证明不切实际。

为了获得更实用的OOD知识，人们越来越感兴趣地利用来自实时测试场景的信息来协助OOD检测[42](https://arxiv.org/html/2604.15756#bib.bib73)。AUTO[48](https://arxiv.org/html/2604.15756#bib.bib27)通过降低潜在OOD样本的预测置信度，更新模型中所有批归一化层和最终特征块的参数。与更新原始模型不同，AdaND[5](https://arxiv.org/html/2604.15756#bib.bib28)训练额外的噪声检测器。另一方面，OODD[49](https://arxiv.org/html/2604.15756#bib.bib30)维护一个优先队列来累积更多代表性的OOD图像特征，这些特征用于校准测试样本的检测器输出。AdaNeg[53](https://arxiv.org/html/2604.15756#bib.bib31)进一步利用外部文本标签来指导视觉特征的选择和存储，实现更强的性能。

尽管取得了这些进展，现有的测试时方法主要关注具有固定文本标签的视觉侧自适应。相比之下，我们的方法在测试期间主动学习判别的OOD文本知识，直接利用文本模态的自适应潜力。

**提示词学习**。作为NLP中手动提示词工程的替代品而发展的提示词学习已被适配到具有CLIP[35](https://arxiv.org/html/2604.15756#bib.bib13)等VLM的视觉-语言场景中。CoOp[56](https://arxiv.org/html/2604.15756#bib.bib14)等方法为模板词使用可学习的向量，增强了CLIP在各种任务上的性能。虽然应用于OOD检测[2](https://arxiv.org/html/2604.15756#bib.bib23),[27](https://arxiv.org/html/2604.15756#bib.bib11),[52](https://arxiv.org/html/2604.15756#bib.bib24)，现有方法在训练时使用标注的ID数据进行操作。我们的是首个应用于测试时OOD检测的，自适应地学习与真实世界OOD分布对齐的文本知识——实现动态自适应而无需预定义的OOD类别或外部数据集。

## 3 方法

### 3.1 基础知识

参考图2：提出的TTL框架的概述。(a) TTL的自适应：在测试时自适应期间，基础OOD检测器产生的伪标签用于优化可学习的OOD提示词，允许模型逐步获得OOD文本知识。为了减少伪标签中的噪声，引入OOD知识纯化策略来区分可靠的OOD样本和ID边界样本。学习的OOD文本特征随后在OOD文本知识库中更新。(b) 预测的校准：在推理期间，基础检测器的预测使用OOD文本知识库进一步校准。

**OOD检测**。OOD检测的目标是区分ID样本和OOD样本。对于测试样本$\mathbf{x}$，这可以表示为二元分类任务。决策函数$D(\mathbf{x})$可定义为

$$D(\mathbf{x})=\begin{cases}1~(\text{ID}),&\text{if }S(\mathbf{x})\geq\lambda\\ 0~(\text{OOD}),&\text{if }S(\mathbf{x})<\lambda\end{cases}\quad(1)$$

其中评分函数$S(\cdot)$从基础OOD检测器获得，$\lambda$是决策阈值。

**CLIP和阈值确定**。基于CLIP的OOD检测利用视觉和文本模态的两者进行改进的区分。CLIP包含两个编码器。图像编码器$f(\cdot)$将输入图像$\mathbf{x}$转换为特征向量$\mathbf{z}=f(\mathbf{x})\in\mathbb{R}^d$。文本编码器$g(\cdot)$将手动模板$\mathbf{u}_c$（即"a photo of a {class label}"）转换为特征向量$\mathbf{t}_c=g(\mathbf{u}_c)\in\mathbb{R}^d,c\in\{1,\cdots,N\}$，其中$N$表示ID类的数量。我们将这些模板$\mathbf{u}_c$称为ID提示词。余弦相似度$\cos(\mathbf{z},\mathbf{t}_c)$度量图像-文本对齐的程度。

对于基于CLIP的OOD检测，遵循先前的研究[23](https://arxiv.org/html/2604.15756#bib.bib32)，决策阈值$\lambda$通过最小化基于OOD检测分数的双峰分布的类内方差来自适应确定，如下所示：

$$\min_{\lambda}\frac{1}{N_{\text{id}}}\sum_{S(\mathbf{x}_i)>\lambda}\{(S(\mathbf{x}_i)-\mu_{\text{id}})^2\}+\frac{1}{N_{\text{ood}}}\sum_{S(\mathbf{x}_j)\leq\lambda}\{(S(\mathbf{x}_j)-\mu_{\text{ood}})^2\}\quad(2)$$

其中$\mu_{\text{id}}=\frac{1}{N_{\text{id}}}\sum_{S(\mathbf{x}_i)>\lambda}S(\mathbf{x}_i)$和$\mu_{\text{ood}}=\frac{1}{N_{\text{ood}}}\sum_{S(\mathbf{x}_j)\leq\lambda}S(\mathbf{x}_j)$

相似文章

超越文本主导：理解全模态大语言模型的模态偏好

Hugging Face Daily Papers

# 论文页面 - 超越文本主导：理解全模态大语言模型的模态偏好来源：[https://huggingface.co/papers/2604.16902](https://huggingface.co/papers/2604.16902) ## 摘要研究发现，原生全模态大语言模型表现出相对于文本的视觉偏好，模态偏好在模型中后层逐步涌现，并可用于诊断跨模态幻觉。原生[全模态大语言模型](https://huggingfa

CLIP：连接文本与图像

OpenAI Blog

CLIP 是 OpenAI 的视觉语言模型，从互联网上的文本-图像对中学习，实现零样本视觉分类，无需任务特定的训练数据。它通过减少对昂贵标注数据集的依赖并提高现实世界泛化能力，解决了传统计算机视觉的主要局限性。

OneVL：基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划来源：[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者：, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架，通过整合语言和 v

TIPSv2：以更强的块-文本对齐推进视觉-语言预训练

Hugging Face Daily Papers

# 论文页面 - TIPSv2：以更强的块-文本对齐推进视觉-语言预训练来源：[https://huggingface.co/papers/2604.12012](https://huggingface.co/papers/2604.12012) 发布时间：4 月 13 日 · 提交者 [https://huggingface.co/bingyic](https://huggingface.co/bingyic) [![](https://huggingface.co/avatars/05be62f5927b8586ef7cb927d47dcd83.svg)](https://huggingface.co/bingyic) [bingyi](https://huggingface.co/bingyic) 于 4 月 20 日作者：，，，，，，，，，，，，，，，，，## 摘要

PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

Papers with Code Trending

PaddleOCR-VL 是一个紧凑的 0.9B 视觉语言模型，通过集成 NaViT 风格的动态分辨率与 ERNIE 语言模型，在多语言文档解析和元素识别方面实现了最先进的性能。

相似文章

超越文本主导：理解全模态大语言模型的模态偏好

CLIP：连接文本与图像

OneVL：基于视觉语言解释的单步隐式推理与规划

TIPSv2：以更强的块-文本对齐推进视觉-语言预训练

PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

提交意见反馈