小巧但可信:高效视觉语言推理用于时间序列异常检测
摘要
本文提出 VisAnomReasoner,一个参数高效的视觉语言模型,在带自然语言解释的新基准 VisAnomBench 上微调,在时间序列异常检测中精度和 F1 提升超过 21 个百分点,并展现出强大的跨基准泛化能力。
查看缓存全文
缓存时间: 2026/05/29 19:03
论文页面 - 小而可信:面向时间序列异常检测的高效视觉-语言推理
来源:https://huggingface.co/papers/2605.30344
摘要
本文提出了一种参数高效的视觉-语言模型,用于时间序列异常检测,并借助一个包含自然语言解释的新型基准实现了优于现有方法的性能以及跨多个数据集的泛化能力。
近期视觉-语言模型(VLMs)的进展在许多任务上取得了令人瞩目的表现,然而,先前的研究报告显示,将大规模语言或多模态模型应用于序列数据中的异常模式发现时,性能并不理想。现有的异常检测基准通常只提供区间标注,而不包含自然语言解释,这使得难以对VLM进行微调以产生有依据、可解释的决策。为弥补这一空白,我们构建了VisAnomBench,这是一个从公开时间序列数据集整理而成、并利用多个大型VLM通过细粒度、任务特定的奖励选取的高质量异常解释进行增强的基准。通过在该基准上进行微调,我们开发了VisAnomReasoner——一个用于时间序列异常检测的参数高效VLM。在VisAnomBench上的实验结果显示,VisAnomReasoner实现了更准确的异常定位,并在所有基线上持续取得更优表现,其中精确率和F1分数分别至少提升了21.23和23.87个百分点。在TSB-AD-U基准上的额外实验展示了强大的跨基准泛化能力,VisAnomReasoner将精确率和F1分数分别提升了9.57和13.39个百分点。
查看arXiv页面 (https://arxiv.org/abs/2605.30344) 查看PDF (https://arxiv.org/pdf/2605.30344) 项目页面 (https://plan-lab.github.io/projects/VisAnom) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30344)
引用该论文的模型0
暂无模型链接该论文
请在模型 README.md 中引用 arxiv.org/abs/2605.30344 以在此页面建立链接。
引用该论文的数据集0
暂无数据集链接该论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.30344 以在此页面建立链接。
引用该论文的 Space0
暂无 Space 链接该论文
请在 Space README.md 中引用 arxiv.org/abs/2605.30344 以在此页面建立链接。
包含该论文的收藏0
暂无收藏包含该论文
请将该论文添加到一个收藏 (https://huggingface.co/new-collection) 中以在此页面建立链接。
相似文章
VLM是通过自适应测试时优化进行视频推理的优秀教师
本文提出一种新范式:视觉-语言模型(VLM)作为测试时教师,通过可微分奖励和LoRA优化引导视频生成模型(VGM),在视频推理基准测试上平均提升16.7个百分点。
更多推理,更低准确性?论视觉语言模型中推理的双重性
本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
面向以对象为中心的视觉推理的弱监督概念学习
本文提出了一种两阶段的神经符号框架,利用弱监督(仅需 1% 的标签)结合基于 Slot 的变分自编码器(VAE),学习用于以对象为中心的视觉推理的可解释符号,在领域泛化方面优于基础模型。
看不清还是想不对?面向视觉语言推理的感知奖励
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。