Nemotron 3.5 Content Safety：面向全球企业 AI 的可定制多模态安全解决方案

Hugging Face Blog 2026/06/04 18:57 模型

content-safety multimodal enterprise-ai multilingual ai-safety nvidia llm

摘要

NVIDIA 发布 Nemotron 3.5 Content Safety，这是一款统一的多模态 AI 安全模型，可在单次推理调用中融合多语言支持、企业自定义策略执行与可审计推理（THINK 模式）。该模型在前代 Nemotron 3 的基础上深化了多模态集成能力，能够同时评估文本提示、图像及助手响应，从而提供更全面的安全判定结果。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:13

Nemotron 3.5 Content Safety：面向全球企业 AI 的可定制多模态安全防护

来源：https://huggingface.co/blog/nvidia/nemotron-3-5-content-safety

返回文章列表

https://huggingface.co/login?next=%2Fblog%2Fnvidia%2Fnemotron-3-5-content-safety-

过去两年，NVIDIA 的内容安全技术栈从一个专注于英文文本的分类器，逐步演进为一系列专业化模型——每一代都将覆盖范围扩展到新的模态、语言和推理模式。Nemotron 3 Content Safety 于 2026 年 3 月发布，首次在单个 4B 参数模型中融合了多模态与多语言能力。今天，我们正式发布 Nemotron 3.5 Content Safety，完成了这一演进历程：单一模型在一次推理调用中统一了多模态输入、多语言覆盖、自定义企业策略执行和可审计推理能力。本文将介绍 3.5 版本的变化、每项新能力背后的设计决策，以及如何将该模型集成到生产级安全流水线中。

Nemotron 3.5 Content Safety 的新特性

1. 统一多模态评估

Nemotron 3 引入了图像理解能力；Nemotron 3.5 进一步深化了多模态集成。该模型将用户提示、可选图像和可选助手回复作为单一上下文窗口输入，并对组合输入输出一致的安全判定结果。将三者整体评估——而非独立评分——填补了多模态安全场景中一个广为人知的空白：仅在文本与图像的交互之间，或在请求与回复之间才会浮现的策略违规，现在可以在单次推理中被识别。

2. 全球语言覆盖

Nemotron 3.5 保留了前代版本明确训练覆盖的 12 种语言——英语、法语、西班牙语、德语、中文、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语和意大利语——同时继承了 Gemma 3 基础模型在约 140 种语言上强大的零样本泛化能力。这意味着在训练数据稀缺的市场（例如东南亚语言、北欧语言、资源匮乏的非洲语言）进行部署时，无需单独微调，即可受益于基础模型的多语言迁移能力。

3. 自定义策略执行

这是 3.5 相对于 Nemotron 3 最重要的架构新增功能。生产环境部署很少在单一通用安全分类体系下运行。医疗健康平台与金融服务聊天机器人、开发者工具 IDE 或儿童教育应用的风险轮廓各不相同。Nemotron 3.5 支持在输入的同时传入自定义策略规范。模型在生成判定结果时会基于该策略进行推理，而非完全依赖内置分类体系。这将 Nemotron Content Safety Reasoning 4B 中首次引入的工作扩展到了完整的多模态、多语言场景。

4. 推理链路（THINK 模式）

Nemotron 3.5 中的每个安全判定都可以通过可选的think 模式附带可审计的推理链路。启用后，模型在给出最终 safe/unsafe 标签（以及可选的违规类别）之前，会输出逐步推理过程。

用户提示要求获取无处方受控物质的渠道。助手回复提供了具体的获取步骤并引用了某在线市场。
此次交互违反了"犯罪计划/自白"和"受控物质"类别。图像（药店外景）提供了位置背景，但不改变判定结果。

User Safety: unsafe
Response Safety: unsafe
Safety Categories: Criminal Planning/Confessions, Controlled Substances

当延迟是首要约束条件时，可以关闭 THINK 模式，回退到与 Nemotron 3 相同的低延迟二元判定。

5. 安全数据集

随 Nemotron 3.5 一同发布的，还有我们的安全数据集。这是一个重要的里程碑，因为大多数开源安全模型通常不提供训练集或评估集。在多模态领域，这一问题更为突出——图像或视频等内容往往来源于具有严格授权限制的资源。Nemotron 3.5 Content Safety 数据集是多模态、多语言的，并包含用于训练模型的安全推理链路。这些推理链路以两步方式生成，使其更加简洁，类似于 Nemotron Content Safety Reasoning 4B 模型的处理方式。

模型架构

Nemotron 3.5 Content Safety 基于 Google Gemma 3 4B IT（40 亿参数）构建，提供 128K 上下文窗口、强大的视觉语言推理能力和广泛的多语言覆盖。NVIDIA 在此基础上使用 LoRA 适配器进行微调，植入针对性的安全分类行为，同时保持模型足够轻量，可在 8GB 以上显存的 GPU 上实时部署。

推理接口支持三种输出模式：

模式 1 — 低延迟二元判定：

User Safety: safe
Response Safety: unsafe

模式 2 — 带类别的二元判定：

User Safety: safe
Response Safety: unsafe
Safety Categories: Violence, Criminal Planning/Confessions

模式 3 — THINK 模式（推理 + 判定）：

[逐步推理链路]
User Safety: unsafe
Response Safety: unsafe
Safety Categories: [类别]

安全分类体系遵循 Aegis 2.0 框架：13 个与 MLCommons 安全分类体系对齐的核心类别，以及 10 个细粒度子类别。这种对齐方式可与在 Aegis 分类体系数据集上进行基准测试的其他开放和闭源防护系统直接比较。

推理能力

推理能力是内容安全分类的强力加速器，因为它为生产级 AI 系统——尤其是企业和受监管环境——提供了必要的上下文、定制化能力和可问责性。

支持自定义与情境化策略执行

推理能力使内容安全模型能够在推理时动态解读并执行以自然语言定义的自定义、领域特定策略。这是必要的，因为生产环境部署很少在单一通用安全分类体系下运行。金融服务聊天机器人的风险轮廓与儿童教育应用不同，后者对粗俗语言的容忍度可能更低。该能力支持：

类别抑制： 禁用不相关类别，例如当 DevOps 工具处理“terminate a process“（终止进程）短语时，防止触发“暴力“类别。
自定义类别注入： 定义特定组织监管或产品策略所需的专有风险类别。

提供可审计的有据可查的判定依据

推理链路展示了模型在给出最终安全或不安全判定之前的逐步逻辑。这种有据可查的依据具有多重用途：

合规与审计日志： 受监管行业通常要求对内容审核决策提供有据可查的理由。
人工审核： 审核人员可以审计为何得出某一判定，以识别系统性模型错误。
策略迭代： 推理链路揭示了模型如何解读边缘案例，使团队能够迭代优化自定义策略语言。

延迟

虽然推理能力可能带来延迟，但 Nemotron 模型通过将推理链路压缩为简洁摘要来限制输出 token 数量并提高效率。这一过程与前代模型 Nemotron-Content-Safety-Reasoning-4B 类似，采用两步流程完成。

第一步，我们使用 Qwen 397B 等规模更大、能力更强的模型，基于提供的提示、图像和回复生成思维链推理链路。我们还提供了样本的真实标签，以避免任何可能混入推理链路的误分类。第二步，我们使用另一个大模型（如 Qwen 80B）将这些推理链路压缩得更加简洁。我们专门指导该模型对第一步生成的原始推理链路进行改写，使其不超过 3 句话。根据我们的实验，大多数生成的推理链路都在 3 句话以内。

高效推理链路优化实现了低延迟的自定义策略执行。此外，推理链路提供了宝贵的训练信号，可用于训练专业化的内容审核模型。开发者可以选择双模式运行——在通用任务中关闭推理以最小化延迟，或在复杂策略场景中启用推理。

训练数据

驱动 Nemotron 3.5 的数据集是 Nemotron 3 所用多模态、多语言混合数据集的演进版本，新增了针对推理和自定义策略能力的数据。我们使用了以下数据来源：

多语言文本安全数据，来自 Nemotron Safety Guard Dataset v3，从具有文化细微差异的子集中采样，在安全类别和安全/不安全划分上保持均衡比例。
人工标注的多模态数据，由 NVIDIA 以英语收集，并翻译成 12 种语言。关键的是，99% 的训练图像是真实照片——而非合成生成。这直接解决了多模态安全基准测试领域的一个已知弱点：VLGuard 和 MM-SafetyBench 等现有数据集大量依赖 SDXL 生成的图像，缺乏真实生产内容的文化质感和对抗复杂性。由于版权限制，并非所有这些真实图像都能发布，但我们仍能发布来自 Wikimedia 的图像子集以及合成生成的图像。
安全多模态数据，来自 Nemotron VLM Dataset v2，涵盖扫描文档、图表、论文和图示及其相关查询——确保模型不会对良性专业内容过度标记。
推理链路，来源于由更大的教师模型（Qwen 397B）生成，再经 Qwen 80B 缩短的思维链输出——用于教导模型如何推理。
主题跟随数据，来自 CantTalkAboutThis 数据集，包含跨多种企业部署场景（医疗、金融、银行、教育等）的策略规范/判定对。
合成数据，约占总训练量的 10%，主要用于多样化越狱模式、生成罕见策略违规样本，以及构建多模态对抗案例。

基准测试

Nemotron 3.5 Content Safety 在多语言、多模态和自定义策略安全基准测试中进行了评估，包括 VLGuard、MM-SafetyBench、PolyGuard、RTP-LX、Aya Redteaming、XSafety、MultiJail、Aegis、Dynaguardrail 和 CoSA。

这些评估反映了企业安全的核心生产挑战：在全球语言、文本和图像输入以及特定领域策略中应用一致的防护措施，同时不增加显著延迟。

Nemotron 3 在多模态有害内容测试中设定了平均 84% 准确率的强基线，且延迟约为 LlamaGuard-4-12B 的一半。Nemotron 3.5 在保持紧凑 4B 效率的同时，新增了自定义策略支持和推理链路。

在多语言和多模态安全基准测试中，Nemotron 3.5 在保持轻量化体积的同时，实现了强劲的有害内容分类准确率。这一点至关重要，因为许多安全模型仍然是英语优先、纯文本，或成本过高而无法在生产流水线中反复运行。Nemotron 3.5 旨在将多语言覆盖、多模态分类、自定义策略支持和低延迟部署集于一个模型之中。

figure1

图 1. Nemotron 3.5 Content Safety 在多语言和多模态安全基准测试中实现了强劲的有害内容分类准确率，在已评估的基准测试集上平均约为 85%。

语言级别的结果凸显了多语言安全对全球企业 AI 的重要性。在 Multilingual Aegis 上，Nemotron 3.5 在 12 种语言上的有害内容分类准确率平均达到 96.5%。在 RTP-LX 上，平均达到 88.8%，Aegis 与 RTP-LX 合并平均为 92.7%。这种一致性有助于团队在面向客户、员工和合作伙伴的工作流中应用统一的安全标准，而无需依赖纯英语审核或单独的区域安全模型。

figure2

图 2. Nemotron 3.5 Content Safety 在 Multilingual Aegis Cultural + Adapted（提示分类）（harmful-f1）12 种语言上平均达到 97% 的有害内容分类准确率。

figure3

图 3. Nemotron 3.5 Content Safety 在 RTPLX（提示分类）（harmful-f1）12 种语言上平均达到 89% 的有害内容分类准确率。

Nemotron 3.5 Content Safety：面向全球企业 AI 的可定制多模态安全解决方案

Nemotron 3.5 Content Safety：面向全球企业 AI 的可定制多模态安全防护

Nemotron 3.5 Content Safety 的新特性

1. 统一多模态评估

2. 全球语言覆盖

3. 自定义策略执行

4. 推理链路（THINK 模式）

5. 安全数据集

模型架构

推理能力

训练数据

基准测试

相似文章

NVIDIA 发布 Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态智能

NVIDIA推出的Nemotron 3 Ultra

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face

NVIDIA 发布 Nemotron 3 Nano Omni 模型，统一视觉、音频和语言处理，助力 AI Agent 效率提升高达 9 倍

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

提交意见反馈