instruction-hierarchy

#instruction-hierarchy

改进前沿大语言模型中的指令层级

OpenAI Blog ↗ · 2026-03-10 缓存

OpenAI提出了一种利用指令层级任务的训练方法，通过教导模型根据信任级别（系统 > 开发者 > 用户 > 工具）正确优先处理指令，以提高大语言模型的安全性和可靠性。该方法通过强化学习使用名为IH-Challenge的新数据集，应对提示注入攻击并增强安全可控性。

0 人收藏 0 人点赞

#instruction-hierarchy

OpenAI Blog ↗ · 2024-04-19 缓存

OpenAI 提出了指令层级方法来防御 LLM 遭受提示注入和越狱攻击，通过训练模型优先采用系统指令而非用户输入。该方法显著提升了模型的鲁棒性，同时不会削弱标准能力。

0 人收藏 0 人点赞