指令层级：训练大语言模型优先处理特权指令

OpenAI Blog 2024/04/19 19:00 论文

摘要

OpenAI 提出了指令层级方法来防御 LLM 遭受提示注入和越狱攻击，通过训练模型优先采用系统指令而非用户输入。该方法显著提升了模型的鲁棒性，同时不会削弱标准能力。

当今的大语言模型容易受到提示注入、越狱以及其他攻击的影响，这些攻击允许对手用恶意提示覆盖模型的原始指令。

查看缓存全文

缓存时间: 2026/04/20 14:47

# 指令层级：训练大语言模型优先处理特权指令来源：https://openai.com/index/the-instruction-hierarchy/ OpenAI 当今的大语言模型容易受到提示注入、越狱和其他攻击，这些攻击允许对手用恶意提示覆盖模型的原始指令。在这项工作中，我们主张这些攻击背后的主要漏洞之一是，大语言模型通常将系统提示（例如来自应用开发者的文本）与来自不可信用户和第三方的文本视为相同优先级。为了解决这个问题，我们提出了一个指令层级系统，明确定义了当不同优先级的指令发生冲突时模型应该如何表现。随后，我们提出了一种数据生成方法来演示这种分层指令遵循行为，它教会大语言模型有选择性地忽略低优先级指令。我们将这种方法应用于 GPT-3.5，结果表明它大幅提高了鲁棒性——即使对于训练期间未见过的攻击类型——同时对标准功能的性能下降最小。

指令层级：训练大语言模型优先处理特权指令

相似文章

改进前沿大语言模型中的指令层级

理解提示词注入：AI安全的前沿挑战

学习如何让大语言模型进行推理

让语言模型遵循指令

修剪不安全票：一种资源高效的框架，用于更安全、更鲁棒的大型语言模型

提交意见反馈