SingGuard: 策略自适应多模态LLM护栏与动态推理

Hugging Face Daily Papers 论文

摘要

SingGuard是一种策略自适应多模态LLM护栏模型,用于文本、图像和多语言安全审核,具备动态推理能力,并包含新基准SingGuard-Bench。它在多个数据集上取得了最先进的结果。

视觉语言模型(VLM)正越来越多地部署于消费、医疗、金融和企业应用中。这种广泛部署扩大了安全边界:风险可能来自多模态问答、助手响应以及跨模态组合,而审核策略可能因产品、地区和部署阶段而异。大多数现有的护栏模型要么依赖固定分类体系,要么仅针对狭窄的交互场景,这限制了它们在部署时安全规则变化时的适应性。我们提出了SingGuard,一个策略自适应的多模态护栏模型系列,用于多模态对话中的安全评估。SingGuard将当前策略作为运行时输入:给定自然语言规则,它逐条检查目标内容是否符合当前策略,并预测安全标签和触发的规则。为了平衡效率与可解释性,SingGuard支持快速、混合和慢速推理模式,涵盖从直接安全判断到基于策略的推演这一快慢推理谱系。我们进一步通过快慢解耦强化学习优化这一行为。我们还引入了SingGuard-Bench,一个多模态护栏基准,包含56,340个样本,覆盖80多种细粒度风险类型,涉及多模态QA、对抗攻击和动态规则评估场景,包括跨模态联合风险案例——其中每种模态单独无害,但组合后隐含不安全意图。在六个基准系列(35个数据集)上,SingGuard在每个系列中都取得了最先进的平均F1分数。动态规则评估进一步表明,在运行时策略变化下,策略遵循准确率从0.6465提升至0.7415。我们的代码开源于 https://github.com/inclusionAI/Sing-Guard。
查看原文
查看缓存全文

缓存时间: 2026/06/29 06:01

论文页面 - SingGuard:具备动态推理能力的策略自适应多模态大语言模型护栏

来源:https://huggingface.co/papers/2606.22873

image (https://cdn-uploads.huggingface.co/production/uploads/6490132ee41035fd57027083/822VbSq1XD9EviDgziqGR.png)

SingGuard 是一个策略自适应的多模态大语言模型护栏模型系列,用于文本、图像、图文、查询-回复及多语言的安全审核。与依赖固定分类体系的静态护栏不同,SingGuard 将当前生效的安全策略作为运行时输入,并逐条执行基于策略的规则判断,从而使不同产品或部署场景能够应用自定义且可动态更新的安全规则。

SingGuard 支持三种推理模式:用于低延迟审核的快速判断、适用于复杂或需审计场景的慢速策略驱动推理,以及包含早停机制的混合快慢推理。它还引入了规则隔离掩码(RI-Mask),这是一种面向多规则审核的推理加速方法:共享的图文内容仅编码一次,而不同规则分支通过注意力掩码相互隔离,从而实现并行规则检查,避免跨规则干扰。

我们进一步推出了 SingGuard-Bench,这是一个包含 56,340 个示例的多模态护栏评测基准,覆盖 80 多种细粒度风险类型,包括图像安全、多模态问答安全、跨模态隐藏意图攻击、多语言审核以及动态规则评估。在 6 个评测基准家族和 35 个数据集上,SingGuard 在平均 F1 分数上达到了最先进水平,并在运行时规则变更下提升了策略遵循的准确性。

相似文章

具备潜在推理能力的鲁棒高效护栏

arXiv cs.AI

CoLaGuard 是一种新型护栏模型,它将多步安全推理转移到连续潜在空间中,与显式推理基线相比,实现了 12.9 倍的加速和 22.4 倍的 Token 缩减,同时在十个安全基准上匹配宏 F1 性能。

OpenGuardrails: 一个开源的上下文感知AI护栏平台

Papers with Code Trending

OpenGuardrails 是一个面向AI安全的开源平台,通过统一模型提供上下文感知的内容安全与操纵检测(例如提示注入、越狱),以及一个独立的NER管道用于数据泄露识别。它在安全基准测试上取得了最先进的性能,并支持私有化、企业级部署。