标签
本文介绍了LegalHalluLens,一个用于审计法律AI中幻觉的框架,提供类型化幻觉档案和风险方向指数,以提升可信赖部署。
本文提出了一种层次贝叶斯可信度框架,用于在操作设计域(ODD)迁移下对自动驾驶汽车责任险进行定价,通过学习得到的ODD相似性核函数,将城市和软件版本间的稀疏经验进行合并。在Waymo碰撞数据上的实验表明,该方法优于无合并方法,并解决了自动驾驶系统的前瞻性费率制定挑战。
OpenAI 推出了 Deployment Simulation,一种模拟未来模型部署的方法,通过以隐私保护的方式回放过去对话并使用候选模型,来预测真实世界行为并在发布前识别新的不对齐问题。
M3在基准测试中取得了不错成绩,但其真正令人印象深刻的是在进行代码更改前进行风险评估和“事前验尸”分析的能力,突显了在混乱的遗留仓库中进行重构时更为谨慎和彻底的方法。
提出潜在预测反事实解耦(LPCD),通过在潜在层面将稳定的恶意意图与不断演变的叙述策略解耦,解决直播风险评估中的战术性分布外偏移,在大规模工业数据集上取得优越性能。
本文介绍了PrivacyAkinator,一个交互式工具,帮助新手开发者通过LLM生成的多选题来阐述隐私设计决策,与NIST的PRAM方法相比,在减少73%的时间的同时,识别出多47%的关键决策。
本文探讨了人们对人工智能工具可能被用于设计危险生物武器的日益增长的担忧,并引用了一项近期的中国芋毒设计研究作为生物安全风险与科学利益之间辩论的焦点。
本文介绍了 WLDS,这是一个由大型语言模型驱动的系统,通过利用可控随机性和跨领域知识来模拟和推演紧急事件。文章提出了紧急事件推演(EID)基准,并展示了其在多个领域的高保真模拟能力。
本文提出了 Agent-BOM,一种用于基于大语言模型(LLM)的智能体系统进行安全审计的统一图表示方法。它通过建模静态能力和动态运行时状态,解决了事后审计中的语义鸿沟问题,能够检测记忆投毒和工具误用等复杂的攻击链。
METR于2026年3月使用其时间跨度任务套件对Claude Mythos Preview早期版本进行了评估,估计其50%-时间跨度至少为16小时,表明该模型处于当前基准测试可测量的上限水平,同时也指出在更长的时间范围内存在稳定性问题。
DeepMind 发布了第三版前沿安全框架,扩展了风险范围以包括有害操纵和不对齐风险,并完善了风险评估流程和高级 AI 模型的治理协议。
OpenAI 研究人员通过在生物学和网络安全领域进行恶意微调(MFT)来研究发布开放权重大型语言模型的最坏情况前沿风险,发现开放权重模型的表现不如前沿闭源模型,且不会显著提升有害能力。
OpenAI 发布了更新的安全防护框架,更加聚焦于高风险 AI 能力,引入了更清晰的风险优先级标准,以及针对自主复制和隐瞒等新兴威胁的研究类别,同时保留了针对生物、化学和网络安全能力等已有的追踪类别。
DeepMind发布了一套关于AGI安全与安保的综合方案,阐述了系统性框架来应对滥用、失对齐、意外事故和结构性风险,为即将到来的通用人工智能做准备。
# 为大语言模型辅助的生物威胁创建构建早期预警系统 来源:[https://openai.com/index/building-an-early-warning-system-for-llm-aided-biological-threat-creation/](https://openai.com/index/building-an-early-warning-system-for-llm-aided-biological-threat-creation/) *注:作为我们*[*预防性框架*](https://openai.com/preparedness/)*的一部分,我们正在投资开发改进的AI赋能型安全风险评估方法。我们相信这些努力*
OpenAI 宣布了其应对准备挑战赛的获奖者,该赛事识别了与前沿 AI 系统相关的独特风险。前十名提交作品突出了包括金融系统操纵、信息泄露、医疗伤害、网络攻击和基于说服的威胁等问题,其中 70% 的参赛作品强调了 AI 增强恶意说服能力的潜力。
OpenAI 提出了一套危害分析框架,用于评估 Codex 等代码合成 LLM 相关的安全风险,通过创新的代码生成能力评估方法论来审视技术、社会、政治和经济影响。