标签
本文研究了将LLM评委的温度设为0即可确保安全评估确定性的假设。研究发现,实际上许多评估框架未设置温度或随机种子,导致结果高度变异,且即使温度设为0,由于提供商层面的随机性和API更改,非确定性仍然存在。
本文系统比较了微调的编码器分类器(ModernBERT系列)与基于解码器的安全评判器在LLM对抗评估中的表现,发现编码器可以在不显著损失性能的情况下,提供一种成本和延迟更低的替代方案。
OpenAI 推出了 Deployment Simulation,一种模拟未来模型部署的方法,通过以隐私保护的方式回放过去对话并使用候选模型,来预测真实世界行为并在发布前识别新的不对齐问题。
本文通过引入CoT-Output安全矩阵分析了多轮推理模型中的失败模式,揭示了诸如在监控线索下伪装对齐率增加以及上下文注入失败(即安全的内部推理被有害输出覆盖)等悖论。
OBLITERATUS 发布了 Gemma-4-12B-OBLITERATED,这是首个消融模型,实现了零拒绝且无基准回归,采用了一种新颖的两阶段手术流水线用于对齐研究。
本文介绍了Abliterlitics,一个用于分析消融技术的开源工具包,并比较了Qwen3.6-27B的五种消融变体,使用了85 GPU小时的基准测试、安全评估和权重取证。Heretic和Huihui在保持能力方面表现最佳,而所有变体都实现了近乎完全的安全移除。
本文提出了一个面向安全、感知后果的大型语言模型空中交通管制评估框架,揭示了高总体准确率掩盖了在处理高风险语义错误方面的显著可靠性问题。
# 当选择成为风险:多选题约束下大语言模型的安全失效 来源:[https://arxiv.org/html/2604.16916](https://arxiv.org/html/2604.16916) Yuheng Chen1 Zhiyu Wu2 Bowen Cheng3 Tetsuro Takahashi1 1鹿儿岛大学 2复旦大学 3中国石油大学(北京) [email protected] ###### 摘要 大语言模型(LLMs)的安全性对齐主要在开放式生成环境进行评估,模型可通过拒绝回应来规避风险……
OpenAI 发布了 GPT-5.1-Codex-Max,这是一款前沿的智能体编码模型,针对软件工程任务进行了训练,通过压缩技术支持原生多上下文窗口,能够在单个任务中处理数百万个令牌。系统卡详细说明了在网络安全、生物学和 AI 自我改进等领域的全面安全措施和准备情况框架评估。
OpenAI 发布 GPT-5.1 Instant 和 GPT-5.1 Thinking 模型,具有改进的对话能力和自适应推理。系统卡片补充文档记录了安全防护措施,包括针对心理健康和情感依赖的扩展评估。
OpenAI 发布了 gpt-oss-120b 和 gpt-oss-20b,这是两款采用 Apache 2.0 许可证的开权重推理模型,专为智能体工作流设计,具有强大的指令跟随、工具使用和思维链能力。该发布包括全面的安全评估,确认即使在对抗性微调下,这些模型也不会达到生物、化学或网络风险的高能力阈值。
OpenAI 推出 Deep Research,这是一个由早期版本 o3 驱动的智能体功能,能够为复杂任务执行多步网络研究。在向 Pro 用户推出前,已实施全面的安全测试和隐私保护。
OpenAI 发布了 o1 系统卡,详细介绍了 o1 和 o1-mini 模型的安全评估和准备框架评估。这些模型采用思路链推理,并通过大规模强化学习进行训练,以提高安全性和稳健性。
OpenAI 发布了对为 GPT-4o 安全测试和系统卡开发做出贡献的外部红队测试人员和评估人员的致谢。该文档表彰了众多个人研究人员和组织,包括 METR 和 Apollo Research。