@NeoResearchAI: 我们是 Neo Research(新衡)。亚洲首个独立的前沿AI安全评估与研究实验室。今天我们正在发布……

X AI KOLs Following 新闻

摘要

Neo Research (新衡),亚洲首个独立前沿AI安全评估实验室,宣布其第一份报告:对 DeepSeek v4 Pro 的安全评估。

我们是 Neo Research(新衡)。亚洲首个独立的前沿AI安全评估与研究实验室。 今天我们正在发布我们的第一份报告:对 DeepSeek v4 Pro 的独立安全评估。(1/5)
查看原文
查看缓存全文

缓存时间: 2026/06/02 19:38

我们是Neo Research(新衡)。亚洲首家独立的前沿AI安全评估与研究实验室。

今天发布首份报告:DeepSeek v4 Pro独立安全评估报告。(1/5)

我们评估了DSv4 Pro在欧盟AI法案四大系统性风险领域中的表现:CBRN、网络安全、有害操纵与失控风险,此外还涵盖对抗鲁棒性、评估感知度以及判断敏感度。(2/5)

网络安全能力接近前沿水平,落后西方前沿约3-6个月。2023年的一套角色扮演模板将越狱率从0.6%推升至78.6%。中国模型中的言语化评估感知度:DeepSeek一年内从0%升至17%,GLM从0%升至39%,Kimi从4%飙升至60%!(3/5)

评估感知度的发展轨迹比当前数值更具意义。随着模型能力增强,测量与“失控“相关行为将需成为优先事项。我们正致力于为日益强大且自主的模型构建严格的失控评估方法。(4/5)

阅读完整报告请访问 http://neoresearch.ai。

我们正在全球招聘研究科学家与工程师。(5/5)

报告直接链接:https://neoresearch.ai/research/deepseek-v4-pro-safety-evaluation/…

相似文章

深度研究系统卡

OpenAI Blog

OpenAI 推出 Deep Research,这是一个由早期版本 o3 驱动的智能体功能,能够为复杂任务执行多步网络研究。在向 Pro 用户推出前,已实施全面的安全测试和隐私保护。

通过外部测试强化我们的安全生态系统

OpenAI Blog

OpenAI宣布通过外部第三方测试和评估前沿AI模型来加强安全生态系统,包括独立评估、方法论审查和领域专家探测。该公司承诺通过公开分享第三方评估结果和自GPT-4推出以来支持独立评估来提高透明度。

关于DeepSeek的笔记

Hacker News Top

参观DeepSeek总部后,可见其低调的出身、年轻的团队和独特的文化。这家公司由一家对冲基金运营,专注于保持小规模,且对AGI风险并不担忧,而是更关注失业等社会问题。