标签
本文提出符号护栏,通过具体策略为特定领域AI智能体提供可证明的安全与保障,同时不降低实用性;实验显示74%的指定策略可通过简单机制强制执行。
OpenAI 描述了针对AI代理检索网页内容时基于URL的数据泄露攻击的安全防护措施。它利用独立网络索引验证URL是否公开已知,再自动检索,以防止提示注入攻击泄露敏感用户数据。
OpenAI宣布通过对抗训练和强化防护措施,持续加固ChatGPT Atlas以抵御提示注入攻击,包括建立快速响应循环,在新型攻击策略出现于实际环境前即发现并缓解。