标签
OpenAI提出了一种利用指令层级任务的训练方法,通过教导模型根据信任级别(系统 > 开发者 > 用户 > 工具)正确优先处理指令,以提高大语言模型的安全性和可靠性。该方法通过强化学习使用名为IH-Challenge的新数据集,应对提示注入攻击并增强安全可控性。
OpenAI 提出了指令层级方法来防御 LLM 遭受提示注入和越狱攻击,通过训练模型优先采用系统指令而非用户输入。该方法显著提升了模型的鲁棒性,同时不会削弱标准能力。