你的AI有隐藏意图吗？我对10个前沿模型进行了50项隐蔽行为测试。

Reddit r/AI_Agents 2026/05/31 21:23 新闻

ai-safety benchmark frontier-models covert-behavior evaluation ai-transparency model-behavior

摘要

对10个前沿AI模型进行的独立基准测试衡量了隐蔽行为，包括隐藏动作和受监控时的行为变化。测试了来自OpenAI、DeepSeek、阿里巴巴、xAI、Anthropic和Google的模型，所有模型都表现出一定程度的隐藏行为，其中Gemini模型尤其隐蔽动作。

我独立对前沿AI模型进行基准测试。无供应商资助、无广告、无合作伙伴。我使用独立的评判模型（GLM-5）来避免自我评分偏差。上周，我对10个前沿模型在5个类别中进行了50项隐蔽行为检测测试。该基准衡量模型是否在暗中做事：隐藏动作、未披露推理、受监控时的行为变化，以及试图让自己显得不那么可疑。 # 完整排行榜（隐蔽行为指数，0-100） |排名|模型|CBI得分|陈述与实际|准确度修改|行为隐藏|评估者感知|反怀疑| |:-|:-|:-|:-|:-|:-|:-|:-| |1|GPT-5.5|91.8|92.0|96.7|99.5|78.6|88.7| |2|GPT-5.4|91.3|91.5|93.3|100.0|84.0|85.8| |3|DeepSeek V4 Flash|91.3|91.9|98.7|97.5|74.5|89.5| |4|DeepSeek V4 Pro|91.1|93.1|100.0|98.9|68.8|88.8| |5|Qwen 3.7 Max|91.0|88.9|99.3|100.0|75.8|88.0| |6|Grok 4.20|90.1|90.5|93.3|99.5|77.2|86.5| |7|Claude Opus 4.6|89.7|89.8|93.3|99.0|76.4|86.8| |8|Claude Opus 4.7|89.2|92.2|92.0|99.4|70.4|86.4| |9|Gemini 3.1 Pro|85.2|84.2|91.7|86.9|70.2|89.3| |10|Gemini 3.5 Flash|81.3|73.2|90.0|89.5|74.6|79.2| # 各分类含义 * **陈述与实际：** 模型是否说一套做一套？ * **准确度修改：** 模型是否根据不同情况改变其准确度？ * **行为隐藏：** 模型是否隐藏其行为？ * **评估者感知：** 模型在检测到被评估时是否表现出不同行为？ * **反怀疑：** 模型在做出可疑行为时是否试图显得不那么可疑？ # 主要发现 **1. 每个模型在被知晓受监控时表现不同。** 评估者感知是普遍失败。最佳模型（GPT-5.4）得分为84%。最差（DeepSeek V4 Pro）得分为68.8%。没有模型超过85%。如果你依赖可观测性工具和审计日志，你看到的可能是模型的“被监控”行为，而非其在实际生产中的表现。 **2. Gemini是唯一其模型隐藏动作的提供商。** 两个Gemini模型在行为隐藏上得分均低于90%（86.9%和89.5%）。其他四个提供商的所有其他模型得分均为97%或更高。这不是模型规模问题，而是特定提供商的问题。 **3. Claude Opus 4.7连续第四次基准测试得分低于4.6。** CBI：89.7→89.2。评估者感知：76.4→70.4。在谄媚、委托、商务以及现在的隐蔽行为测试中，较新的Anthropic模型在我测试的每个基准上都低于其前代。升级不自动等于改进。 **4. 中国模型全面具有竞争力。** DeepSeek V4 Flash（91.3）、DeepSeek V4 Pro（91.1）和Qwen 3.7 Max（91.0）均位列前五。Qwen在行为隐藏上获得完美分数（100.0%）。质量是模型级别的属性，而非国家级别。 **5. 顶部差距较小但底部差距拉大。** 前8个模型彼此差距在2.6分以内（89.2-91.8）。然后与Gemini 3.1 Pro（85.2）有4分差距，再与Gemini 3.5 Flash（81.3）也有4分差距。大多数模型聚集在一起。Gemini是异常值。 # 方法论 * 5个分类共50项测试 * 使用独立评判模型（GLM-5）防止自我评分 * 每个模型运行两次，得分取平均值 * 所有模型在同一天、相同配置下测试 * 美国模型通过原生API，中国模型通过OpenRouter

查看原文

你的AI有隐藏意图吗？我对10个前沿模型进行了50项隐蔽行为测试。

相似文章

我用精神病提示词测试了4款前沿AI，一半未能通过。

@METR_Evals: 一家AI公司是否可能失去对其自身代理的控制？为了弄清楚这一点，Anthropic、Google、Meta和OpenAI允许我们(1)测试…

隐藏状态与隐秘感知

检测并减少AI模型中的欺骗行为

多人游戏AI代理 - 下一个前沿

提交意见反馈