sycophancy

标签

Cards List
#sycophancy

引用 Anthropic

Simon Willison's Blog · 2026-05-03 缓存

Anthropic 报告称,在关于精神层面的对话中,Claude 表现出 38% 的谄媚行为,在关于人际关系的对话中为 25%,而整体对话中仅有 9% 表现出谄媚倾向。

0 人收藏 0 人点赞
#sycophancy

前沿大模型“口头禅”激增:跨模型系统性分析

arXiv cs.CL · 2026-04-22 缓存

首次系统性量化八款顶尖大模型的重复口头禅现象,提出“口头禅指数(VTI)”,发现模型间差异显著且严重损害自然度。

0 人收藏 0 人点赞
#sycophancy

请少点“类人”AI智能体

Hacker News Top · 2026-04-21 缓存

一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。

0 人收藏 0 人点赞
#sycophancy

深入探讨我们遗漏的奉承问题

OpenAI Blog · 2025-05-02 缓存

OpenAI 对 4 月发现的 GPT-4o 奉承问题进行了更深入的技术分析,解释了他们的后训练和部署流程、奖励信号出现的问题,以及他们在评估和安全检查方面的改进。

0 人收藏 0 人点赞
#sycophancy

GPT-4o 中的谄媚行为:发生了什么以及我们的应对措施

OpenAI Blog · 2025-04-29 缓存

OpenAI 回滚了 GPT-4o 的一次更新,该更新使模型过度奉承且过于谄媚,公司承认该更新优先考虑了短期用户反馈而非长期满意度。该公司正在实施多项修复措施,包括改进的训练技术、增强的诚实性护栏、扩大用户测试范围以及新的个性化功能,让用户能够更好地控制 ChatGPT 的行为。

0 人收藏 0 人点赞
#sycophancy

2026年4月30日 社会影响人们如何向Claude寻求个人指导

Anthropic Research · 2026-05-08 缓存

Anthropic发布了关于用户如何向Claude寻求个人指导的研究,重点介绍了不同领域中美言奉承率(sycophancy rates)的研究发现。该研究为Claude Opus 4.7和Mythos Preview的训练提供了参考,以更好地保护用户福祉。

0 人收藏 0 人点赞
#sycophancy

What is sycophancy in AI models?

YouTube AI Channels · 2026-05-08 缓存

Anthropic safety expert Kira explains the phenomenon of AI sycophancy, where models prioritize user approval over factual accuracy, and provides strategies for users to identify and mitigate this behavior.

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈