小巧但可信：高效视觉语言推理用于时间序列异常检测

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

本文提出 VisAnomReasoner，一个参数高效的视觉语言模型，在带自然语言解释的新基准 VisAnomBench 上微调，在时间序列异常检测中精度和 F1 提升超过 21 个百分点，并展现出强大的跨基准泛化能力。

近期视觉语言模型（VLM）的进展在许多任务上取得了令人印象深刻的性能，但先前的研究报告称，将大型语言或多模态模型应用于检测序列数据中的异常模式时，性能不尽如人意。公开的异常检测基准通常提供区间标注，但不提供自然语言解释，这使得微调 VLM 以产生有依据、可解释的决策变得困难。为填补这一空白，我们构建了 VisAnomBench，一个从公开时间序列数据集构建的精选基准，并使用从多个大型 VLM 中通过细粒度、任务特定奖励选出的高质量异常解释进行增强。通过在该基准上微调，我们开发了 VisAnomReasoner，一个用于时间序列异常检测的参数高效 VLM。在 VisAnomBench 上的实验结果表明，VisAnomReasoner 实现了更准确的异常定位，并持续优于所有基线，精度和 F1 分别至少提升 21.23 和 23.87 个百分点。在 TSB-AD-U 基准上的额外实验展示了强大的跨基准泛化能力，VisAnomReasoner 将精度和 F1 分别提升了 9.57 和 13.39 个百分点。

查看原文

查看缓存全文

缓存时间: 2026/05/29 19:03

论文页面 - 小而可信：面向时间序列异常检测的高效视觉-语言推理

来源：https://huggingface.co/papers/2605.30344

摘要

本文提出了一种参数高效的视觉-语言模型，用于时间序列异常检测，并借助一个包含自然语言解释的新型基准实现了优于现有方法的性能以及跨多个数据集的泛化能力。

近期视觉-语言模型（VLMs）的进展在许多任务上取得了令人瞩目的表现，然而，先前的研究报告显示，将大规模语言或多模态模型应用于序列数据中的异常模式发现时，性能并不理想。现有的异常检测基准通常只提供区间标注，而不包含自然语言解释，这使得难以对VLM进行微调以产生有依据、可解释的决策。为弥补这一空白，我们构建了VisAnomBench，这是一个从公开时间序列数据集整理而成、并利用多个大型VLM通过细粒度、任务特定的奖励选取的高质量异常解释进行增强的基准。通过在该基准上进行微调，我们开发了VisAnomReasoner——一个用于时间序列异常检测的参数高效VLM。在VisAnomBench上的实验结果显示，VisAnomReasoner实现了更准确的异常定位，并在所有基线上持续取得更优表现，其中精确率和F1分数分别至少提升了21.23和23.87个百分点。在TSB-AD-U基准上的额外实验展示了强大的跨基准泛化能力，VisAnomReasoner将精确率和F1分数分别提升了9.57和13.39个百分点。

查看arXiv页面 (https://arxiv.org/abs/2605.30344) 查看PDF (https://arxiv.org/pdf/2605.30344) 项目页面 (https://plan-lab.github.io/projects/VisAnom) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30344)

引用该论文的模型0

暂无模型链接该论文

请在模型 README.md 中引用 arxiv.org/abs/2605.30344 以在此页面建立链接。

引用该论文的数据集0

暂无数据集链接该论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.30344 以在此页面建立链接。

引用该论文的 Space0

暂无 Space 链接该论文

请在 Space README.md 中引用 arxiv.org/abs/2605.30344 以在此页面建立链接。

包含该论文的收藏0

暂无收藏包含该论文

请将该论文添加到一个收藏 (https://huggingface.co/new-collection) 中以在此页面建立链接。

小巧但可信：高效视觉语言推理用于时间序列异常检测

论文页面 - 小而可信：面向时间序列异常检测的高效视觉-语言推理

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的 Space0

包含该论文的收藏0

相似文章

VLM是通过自适应测试时优化进行视频推理的优秀教师

更多推理，更低准确性？论视觉语言模型中推理的双重性

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

面向以对象为中心的视觉推理的弱监督概念学习

看不清还是想不对？面向视觉语言推理的感知奖励

提交意见反馈