agent-security

标签

Cards List
#agent-security

持续强化ChatGPT Atlas抵御提示注入攻击

OpenAI Blog · 2025-12-22 缓存

OpenAI宣布通过对抗训练和强化防护措施,持续加固ChatGPT Atlas以抵御提示注入攻击,包括建立快速响应循环,在新型攻击策略出现于实际环境前即发现并缓解。

0 人收藏 0 人点赞
#agent-security

我们如何在多个产品中管控Claude

Anthropic Engineering · 2026-05-26 缓存

Anthropic讨论了如何通过遏制架构限制影响范围并减少人类监督疲劳,从而在多个产品中管控Claude,并分享了从部署Claude.ai、Claude Code和Claude Cowork中获得的经验教训。

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈