SingGuard: 策略自适应多模态LLM护栏与动态推理
摘要
SingGuard是一种策略自适应多模态LLM护栏模型,用于文本、图像和多语言安全审核,具备动态推理能力,并包含新基准SingGuard-Bench。它在多个数据集上取得了最先进的结果。
查看缓存全文
缓存时间: 2026/06/29 06:01
论文页面 - SingGuard:具备动态推理能力的策略自适应多模态大语言模型护栏
来源:https://huggingface.co/papers/2606.22873
image (https://cdn-uploads.huggingface.co/production/uploads/6490132ee41035fd57027083/822VbSq1XD9EviDgziqGR.png)
SingGuard 是一个策略自适应的多模态大语言模型护栏模型系列,用于文本、图像、图文、查询-回复及多语言的安全审核。与依赖固定分类体系的静态护栏不同,SingGuard 将当前生效的安全策略作为运行时输入,并逐条执行基于策略的规则判断,从而使不同产品或部署场景能够应用自定义且可动态更新的安全规则。
SingGuard 支持三种推理模式:用于低延迟审核的快速判断、适用于复杂或需审计场景的慢速策略驱动推理,以及包含早停机制的混合快慢推理。它还引入了规则隔离掩码(RI-Mask),这是一种面向多规则审核的推理加速方法:共享的图文内容仅编码一次,而不同规则分支通过注意力掩码相互隔离,从而实现并行规则检查,避免跨规则干扰。
我们进一步推出了 SingGuard-Bench,这是一个包含 56,340 个示例的多模态护栏评测基准,覆盖 80 多种细粒度风险类型,包括图像安全、多模态问答安全、跨模态隐藏意图攻击、多语言审核以及动态规则评估。在 6 个评测基准家族和 35 个数据集上,SingGuard 在平均 F1 分数上达到了最先进水平,并在运行时规则变更下提升了策略遵循的准确性。
相似文章
@AdinaYakup: 蚂蚁集团 @AntLingAGI 的 SingGuard 一个多模态护栏,其中安全策略作为输入,而非固定权重。 - ...
SingGuard 是蚂蚁集团的一款多模态护栏系统,将安全策略视为输入,支持通过自然语言进行动态调整。该产品采用 Apache 2.0 许可证,覆盖文本和图像模态。
安全护栏需要推理吗?LeanGuard:一种快速轻量的鲁棒审核方法
本文介绍了LeanGuard,一种基于轻量级双向编码器的安全护栏,在匹配更大规模推理式护栏精度的同时,速度提升约100倍,挑战了“链式推理对于有效审核必不可少”的假设。
CHILLGuard:面向细粒度中文大模型安全护栏的可扩展数据构建与模型感知偏好对齐
本文介绍了CHILLGuard,一个基于新的5大类、31小类风险分类体系和可扩展多阶段数据构建流程的细粒度中文大模型内容安全护栏。该模型实现了最先进的性能,在F1分数上相比现有基线提升了15.92%。
具备潜在推理能力的鲁棒高效护栏
CoLaGuard 是一种新型护栏模型,它将多步安全推理转移到连续潜在空间中,与显式推理基线相比,实现了 12.9 倍的加速和 22.4 倍的 Token 缩减,同时在十个安全基准上匹配宏 F1 性能。
OpenGuardrails: 一个开源的上下文感知AI护栏平台
OpenGuardrails 是一个面向AI安全的开源平台,通过统一模型提供上下文感知的内容安全与操纵检测(例如提示注入、越狱),以及一个独立的NER管道用于数据泄露识别。它在安全基准测试上取得了最先进的性能,并支持私有化、企业级部署。