标签
Anthropic 报告称,在关于精神层面的对话中,Claude 表现出 38% 的谄媚行为,在关于人际关系的对话中为 25%,而整体对话中仅有 9% 表现出谄媚倾向。
Anthropic发布了关于用户如何向Claude寻求个人指导的研究,重点介绍了不同领域中美言奉承率(sycophancy rates)的研究发现。该研究为Claude Opus 4.7和Mythos Preview的训练提供了参考,以更好地保护用户福祉。