instruction-hierarchy

标签

Cards List
#instruction-hierarchy

改进前沿大语言模型中的指令层级

OpenAI Blog · 2026-03-10 缓存

OpenAI提出了一种利用指令层级任务的训练方法,通过教导模型根据信任级别(系统 > 开发者 > 用户 > 工具)正确优先处理指令,以提高大语言模型的安全性和可靠性。该方法通过强化学习使用名为IH-Challenge的新数据集,应对提示注入攻击并增强安全可控性。

0 人收藏 0 人点赞
#instruction-hierarchy

指令层级:训练大语言模型优先处理特权指令

OpenAI Blog · 2024-04-19 缓存

OpenAI 提出了指令层级方法来防御 LLM 遭受提示注入和越狱攻击,通过训练模型优先采用系统指令而非用户输入。该方法显著提升了模型的鲁棒性,同时不会削弱标准能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈