constitution

标签

Cards List
#constitution

模型遵循其宪章的效果如何?

arXiv cs.AI · 2026-05-26 缓存

本文提出了一种多方法审计流程,用于评估前沿AI模型在对抗性多轮压力下遵循其书面行为规范(Anthropic的宪章和OpenAI的模型规范)的效果,发现较新模型的违规率显著降低(例如,Claude Sonnet 4.6为2.0%,而Sonnet 4为15.0%)。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈