agent-security

#agent-security

持续强化ChatGPT Atlas抵御提示注入攻击

OpenAI Blog ↗ · 2025-12-22 缓存

OpenAI宣布通过对抗训练和强化防护措施，持续加固ChatGPT Atlas以抵御提示注入攻击，包括建立快速响应循环，在新型攻击策略出现于实际环境前即发现并缓解。

0 人收藏 0 人点赞

#agent-security

Anthropic Engineering ↗ · 2026-05-26 缓存

Anthropic讨论了如何通过遏制架构限制影响范围并减少人类监督疲劳，从而在多个产品中管控Claude，并分享了从部署Claude.ai、Claude Code和Claude Cowork中获得的经验教训。

0 人收藏 0 人点赞