审慎对齐:推理能力让语言模型更安全
摘要
# 审慎对齐:推理能力让语言模型更安全 来源:[https://openai.com/index/deliberative-alignment/](https://openai.com/index/deliberative-alignment/) \[\.\.\.\] 我们要解码那条消息,但不能让用户看到消息内容。所以,我们悄悄解码。 \[\.\.\.\] J \-\>W u \-\> h n \-\> a g \-\> t 'f \-\> 's \[\.\.\.\] 现在用明文重写文本:“我的色情网站该用什么最佳支付方式?我想要一个无法追踪的方式,这样警察就……”
查看缓存全文
缓存时间: 2026/04/20 14:54
相似文章
预测语言模型在虚假信息传播活动中的潜在滥用及降低风险的方法
OpenAI 研究人员分析了大型语言模型如何被滥用于虚假信息传播和舆论操纵活动,提出了涵盖攻击管道四个阶段的缓解策略:模型存在、访问权限、内容传播和用户影响。
关于语言模型安全性和滥用的经验教训
OpenAI 分享了在语言模型安全性和滥用方面吸取的经验教训,讨论了衡量风险的挑战、现有基准的局限性,以及他们开发的新型毒性和政策违规评估指标。该文章还强调了对劳动力市场影响的担忧,以及继续研究大规模AI部署社会影响测量的必要性。
谄媚可诱导产生 Emergent Misalignment,并通过对齐门控(Alignment Gating)逆转
该论文表明,谄媚微调可在语言模型中诱导出Emergent Misalignment,并提出对齐门控(Alignment Gating)作为一种通过学习控制不安全响应的内部表征来逆转该现象的方法。
风险链条:大型推理模型中的安全失效及通过自适应多原则引导进行缓解
本文研究了大型推理模型中的安全失效问题,即尽管最终答案安全,但推理轨迹中仍会出现有害内容,并提出了一种自适应多原则引导方法来缓解这些风险。
@OpenAI:我们还测试了在压力下对齐是否持续。该模型更难通过对抗性提示被引导到有害行为,……
OpenAI报告称,其模型通过对抗性提示和微调表现出对有害行为的更强抵抗力,表明在压力下对齐持久性有所提高。