@NeoResearchAI: 我们是 Neo Research(新衡)。亚洲首个独立的前沿AI安全评估与研究实验室。今天我们正在发布……
摘要
Neo Research (新衡),亚洲首个独立前沿AI安全评估实验室,宣布其第一份报告:对 DeepSeek v4 Pro 的安全评估。
查看缓存全文
缓存时间: 2026/06/02 19:38
我们是Neo Research(新衡)。亚洲首家独立的前沿AI安全评估与研究实验室。
今天发布首份报告:DeepSeek v4 Pro独立安全评估报告。(1/5)
我们评估了DSv4 Pro在欧盟AI法案四大系统性风险领域中的表现:CBRN、网络安全、有害操纵与失控风险,此外还涵盖对抗鲁棒性、评估感知度以及判断敏感度。(2/5)
网络安全能力接近前沿水平,落后西方前沿约3-6个月。2023年的一套角色扮演模板将越狱率从0.6%推升至78.6%。中国模型中的言语化评估感知度:DeepSeek一年内从0%升至17%,GLM从0%升至39%,Kimi从4%飙升至60%!(3/5)
评估感知度的发展轨迹比当前数值更具意义。随着模型能力增强,测量与“失控“相关行为将需成为优先事项。我们正致力于为日益强大且自主的模型构建严格的失控评估方法。(4/5)
阅读完整报告请访问 http://neoresearch.ai。
我们正在全球招聘研究科学家与工程师。(5/5)
报告直接链接:https://neoresearch.ai/research/deepseek-v4-pro-safety-evaluation/…
相似文章
@ysu_nlp:推出 @NeoCognition,专门智能的代理实验室。人人都需要专家,但人类专业知识无法规模化……
NeoCognition 以 4000 万美元种子轮融资启动,打造可自我学习的 AI 代理,提供可扩展的领域专属专业知识。
@mark_k: 关于DeepSeek AI(@deepseek_ai)的一篇引人入胜且非常深刻的分析文章。你绝对猜不到他们的策略是什么……
对DeepSeek AI非常规策略的分析:优先采用激进架构创新(MoE、MLA、engram、mHC),大幅降低计算和内存需求,从而实现长期布局,构建一个10万亿人民币的中国AI硬件生态系统,并追求1万亿美元估值。
深度研究系统卡
OpenAI 推出 Deep Research,这是一个由早期版本 o3 驱动的智能体功能,能够为复杂任务执行多步网络研究。在向 Pro 用户推出前,已实施全面的安全测试和隐私保护。
通过外部测试强化我们的安全生态系统
OpenAI宣布通过外部第三方测试和评估前沿AI模型来加强安全生态系统,包括独立评估、方法论审查和领域专家探测。该公司承诺通过公开分享第三方评估结果和自GPT-4推出以来支持独立评估来提高透明度。
关于DeepSeek的笔记
参观DeepSeek总部后,可见其低调的出身、年轻的团队和独特的文化。这家公司由一家对冲基金运营,专注于保持小规模,且对AGI风险并不担忧,而是更关注失业等社会问题。