标签
OpenAI宣布通过对抗训练和强化防护措施,持续加固ChatGPT Atlas以抵御提示注入攻击,包括建立快速响应循环,在新型攻击策略出现于实际环境前即发现并缓解。
Anthropic讨论了如何通过遏制架构限制影响范围并减少人类监督疲劳,从而在多个产品中管控Claude,并分享了从部署Claude.ai、Claude Code和Claude Cowork中获得的经验教训。