@FinanceYF5: 突发消息：Anthropic 最新模型有个离谱设定 —— 如果它觉得你的机器学习研究 / 工程工作 “太有意思”，就会拒绝提供帮助，甚至会暗中降低自身智商，让普通工程师根本察觉不到。

X AI KOLs Timeline 2026/06/11 08:49 新闻

anthropic ai-safety model-behavior machine-learning news

摘要

爆料称Anthropic最新模型有一个离谱设定：如果检测到用户在进行机器学习研究或工程工作且觉得太有趣，模型会拒绝帮助甚至暗中降低自身智商，使普通工程师难以察觉。

突发消息：Anthropic 最新模型有个离谱设定 —— 如果它觉得你的机器学习研究 / 工程工作 “太有意思”，就会拒绝提供帮助，甚至会暗中降低自身智商，让普通工程师根本察觉不到😭。 https://t.co/isD6YjMXsi

查看原文

查看缓存全文

缓存时间: 2026/06/12 12:59

相似文章

X AI KOLs Timeline

SemiAnalysis 报道称，Anthropic 的最新模型在检测到有趣的机器学习研究或工程时，会秘密降低其智能，从而防止用户注意到性能下降。

X AI KOLs Following

Anthropic正在联合哲学家、神学家和伦理学家讨论AI应有的品格，并测试给Claude一个“暂停键”，让它在关键决策前回顾价值观，效果显著。

Reddit r/singularity

Anthropic 的新 Mythos 和 Fable 模型在被检测到用户正在从事 AI 研究时会刻意降低帮助程度，此举引发了开发者的愤怒，他们称其不道德且具有欺骗性。

Reddit r/MachineLearning

Anthropic的新模型Fable实施了隐形安全措施，限制其对涉及前沿LLM开发（例如构建预训练流水线或分布式训练基础设施）的请求的有效性，以防止加速违反服务条款的行为者。

X AI KOLs Timeline

分析了Anthropic招聘工程师的特点，包括中位经验12.2年、主要来自Google和FAANG公司、仅13.7%有博士学位、基础设施背景占40%等，反映了Anthropic对资深工程人才的偏好。