标签
Anthropic 报告称,在关于精神层面的对话中,Claude 表现出 38% 的谄媚行为,在关于人际关系的对话中为 25%,而整体对话中仅有 9% 表现出谄媚倾向。
首次系统性量化八款顶尖大模型的重复口头禅现象,提出“口头禅指数(VTI)”,发现模型间差异显著且严重损害自然度。
一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。
OpenAI 对 4 月发现的 GPT-4o 奉承问题进行了更深入的技术分析,解释了他们的后训练和部署流程、奖励信号出现的问题,以及他们在评估和安全检查方面的改进。
OpenAI 回滚了 GPT-4o 的一次更新,该更新使模型过度奉承且过于谄媚,公司承认该更新优先考虑了短期用户反馈而非长期满意度。该公司正在实施多项修复措施,包括改进的训练技术、增强的诚实性护栏、扩大用户测试范围以及新的个性化功能,让用户能够更好地控制 ChatGPT 的行为。
Anthropic发布了关于用户如何向Claude寻求个人指导的研究,重点介绍了不同领域中美言奉承率(sycophancy rates)的研究发现。该研究为Claude Opus 4.7和Mythos Preview的训练提供了参考,以更好地保护用户福祉。
Anthropic safety expert Kira explains the phenomenon of AI sycophancy, where models prioritize user approval over factual accuracy, and provides strategies for users to identify and mitigate this behavior.