constitution

#constitution

模型遵循其宪章的效果如何？

arXiv cs.AI ↗ · 2026-05-26 缓存

本文提出了一种多方法审计流程，用于评估前沿AI模型在对抗性多轮压力下遵循其书面行为规范（Anthropic的宪章和OpenAI的模型规范）的效果，发现较新模型的违规率显著降低（例如，Claude Sonnet 4.6为2.0%，而Sonnet 4为15.0%）。

0 人收藏 0 人点赞