标签
本文提出了一种多方法审计流程,用于评估前沿AI模型在对抗性多轮压力下遵循其书面行为规范(Anthropic的宪章和OpenAI的模型规范)的效果,发现较新模型的违规率显著降低(例如,Claude Sonnet 4.6为2.0%,而Sonnet 4为15.0%)。