指令层级:训练大语言模型优先处理特权指令
摘要
OpenAI 提出了指令层级方法来防御 LLM 遭受提示注入和越狱攻击,通过训练模型优先采用系统指令而非用户输入。该方法显著提升了模型的鲁棒性,同时不会削弱标准能力。
当今的大语言模型容易受到提示注入、越狱以及其他攻击的影响,这些攻击允许对手用恶意提示覆盖模型的原始指令。
查看缓存全文
缓存时间: 2026/04/20 14:47
# 指令层级:训练大语言模型优先处理特权指令
来源:https://openai.com/index/the-instruction-hierarchy/
OpenAI
当今的大语言模型容易受到提示注入、越狱和其他攻击,这些攻击允许对手用恶意提示覆盖模型的原始指令。在这项工作中,我们主张这些攻击背后的主要漏洞之一是,大语言模型通常将系统提示(例如来自应用开发者的文本)与来自不可信用户和第三方的文本视为相同优先级。为了解决这个问题,我们提出了一个指令层级系统,明确定义了当不同优先级的指令发生冲突时模型应该如何表现。随后,我们提出了一种数据生成方法来演示这种分层指令遵循行为,它教会大语言模型有选择性地忽略低优先级指令。我们将这种方法应用于 GPT-3.5,结果表明它大幅提高了鲁棒性——即使对于训练期间未见过的攻击类型——同时对标准功能的性能下降最小。
相似文章
改进前沿大语言模型中的指令层级
OpenAI提出了一种利用指令层级任务的训练方法,通过教导模型根据信任级别(系统 > 开发者 > 用户 > 工具)正确优先处理指令,以提高大语言模型的安全性和可靠性。该方法通过强化学习使用名为IH-Challenge的新数据集,应对提示注入攻击并增强安全可控性。
理解提示词注入:AI安全的前沿挑战
OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
让语言模型遵循指令
OpenAI 推出了 InstructGPT,这是一个 GPT-3 的变体,通过人类反馈强化学习 (RLHF) 进行微调,以更好地遵循指令并减少有害输出。一个 1.3B 的 InstructGPT 模型在人类评估者的偏好测试中超过了 175B 的 GPT-3 模型,现已成为 OpenAI API 的默认模型。
修剪不安全票:一种资源高效的框架,用于更安全、更鲁棒的大型语言模型
本文介绍了一种资源高效的修剪框架,该框架能够识别并移除大型语言模型中与不安全行为相关的参数,同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角,在最小化性能损失的前提下,显著减少了不安全内容的生成,并增强了对越狱攻击的鲁棒性。