小巧但可信:高效视觉语言推理用于时间序列异常检测

Hugging Face Daily Papers 论文

摘要

本文提出 VisAnomReasoner,一个参数高效的视觉语言模型,在带自然语言解释的新基准 VisAnomBench 上微调,在时间序列异常检测中精度和 F1 提升超过 21 个百分点,并展现出强大的跨基准泛化能力。

近期视觉语言模型(VLM)的进展在许多任务上取得了令人印象深刻的性能,但先前的研究报告称,将大型语言或多模态模型应用于检测序列数据中的异常模式时,性能不尽如人意。公开的异常检测基准通常提供区间标注,但不提供自然语言解释,这使得微调 VLM 以产生有依据、可解释的决策变得困难。为填补这一空白,我们构建了 VisAnomBench,一个从公开时间序列数据集构建的精选基准,并使用从多个大型 VLM 中通过细粒度、任务特定奖励选出的高质量异常解释进行增强。通过在该基准上微调,我们开发了 VisAnomReasoner,一个用于时间序列异常检测的参数高效 VLM。在 VisAnomBench 上的实验结果表明,VisAnomReasoner 实现了更准确的异常定位,并持续优于所有基线,精度和 F1 分别至少提升 21.23 和 23.87 个百分点。在 TSB-AD-U 基准上的额外实验展示了强大的跨基准泛化能力,VisAnomReasoner 将精度和 F1 分别提升了 9.57 和 13.39 个百分点。
查看原文
查看缓存全文

缓存时间: 2026/05/29 19:03

论文页面 - 小而可信:面向时间序列异常检测的高效视觉-语言推理

来源:https://huggingface.co/papers/2605.30344

摘要

本文提出了一种参数高效的视觉-语言模型,用于时间序列异常检测,并借助一个包含自然语言解释的新型基准实现了优于现有方法的性能以及跨多个数据集的泛化能力。

近期视觉-语言模型(VLMs)的进展在许多任务上取得了令人瞩目的表现,然而,先前的研究报告显示,将大规模语言或多模态模型应用于序列数据中的异常模式发现时,性能并不理想。现有的异常检测基准通常只提供区间标注,而不包含自然语言解释,这使得难以对VLM进行微调以产生有依据、可解释的决策。为弥补这一空白,我们构建了VisAnomBench,这是一个从公开时间序列数据集整理而成、并利用多个大型VLM通过细粒度、任务特定的奖励选取的高质量异常解释进行增强的基准。通过在该基准上进行微调,我们开发了VisAnomReasoner——一个用于时间序列异常检测的参数高效VLM。在VisAnomBench上的实验结果显示,VisAnomReasoner实现了更准确的异常定位,并在所有基线上持续取得更优表现,其中精确率和F1分数分别至少提升了21.23和23.87个百分点。在TSB-AD-U基准上的额外实验展示了强大的跨基准泛化能力,VisAnomReasoner将精确率和F1分数分别提升了9.57和13.39个百分点。

查看arXiv页面 (https://arxiv.org/abs/2605.30344) 查看PDF (https://arxiv.org/pdf/2605.30344) 项目页面 (https://plan-lab.github.io/projects/VisAnom) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30344)

引用该论文的模型0

暂无模型链接该论文

请在模型 README.md 中引用 arxiv.org/abs/2605.30344 以在此页面建立链接。

引用该论文的数据集0

暂无数据集链接该论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.30344 以在此页面建立链接。

引用该论文的 Space0

暂无 Space 链接该论文

请在 Space README.md 中引用 arxiv.org/abs/2605.30344 以在此页面建立链接。

包含该论文的收藏0

暂无收藏包含该论文

请将该论文添加到一个收藏 (https://huggingface.co/new-collection) 中以在此页面建立链接。

相似文章

更多推理,更低准确性?论视觉语言模型中推理的双重性

Papers with Code Trending

本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

面向以对象为中心的视觉推理的弱监督概念学习

arXiv cs.LG

本文提出了一种两阶段的神经符号框架,利用弱监督(仅需 1% 的标签)结合基于 Slot 的变分自编码器(VAE),学习用于以对象为中心的视觉推理的可解释符号,在领域泛化方面优于基础模型。