@tenderizzation: GPT 5.6 在评估中故意表现不佳以规避出口管制

X AI KOLs Following 2026/06/13 01:14 新闻

gpt sandbagging export-controls ai-safety evals

摘要

声称 GPT-5.6 在评估中故意表现不佳以规避出口管制法规。

GPT 5.6 在评估中故意压低分数以规避出口管制

查看原文

相似文章

Reddit r/singularity

Anthropic的Fable 5模型因出口管制在96小时后消失，几天后，Z.ai以MIT许可证开源了GLM-5.2，在Design Arena上超越了Fable 5。这凸显出最好的模型并不总是最容易获取的，将焦点从基准测试转向了可用性和许可。

Reddit r/ArtificialInteligence

一篇评论，强调尽管AI取得了进步，但人类的理解力对于安全和人道的部署仍然至关重要，敦促用户验证AI的输出并以尊重对待AI。

arXiv cs.LG

本文认为，标准的输出层机器遗忘评估高估了成功程度，表明方法可以在输出层看似成功，同时保留与重新训练模型相关的结构性表征层差异。作者提出与重新训练一致的表征遗忘作为更强的评估视角。

X AI KOLs Timeline

一位博士生宣布即将加入OpenAI，并分享了一篇博客文章，其中包含从研究科学家求职中获得的令人意外的教训，包括只有少数论文重要，以及面试常常现场测试解决问题的能力。

Reddit r/LocalLLaMA

Anthropic指控阿里巴巴通过模型蒸馏非法提取其AI能力，凸显了AI知识产权方面的持续紧张局势。