标签
本文将拒绝引导(基于激活的越狱方法)扩展至混合专家(MoE)大语言模型,发现 MoE 的路由模式并不会阻碍引导效果,并提出了专家感知方法,可基于单个专家的输出来抑制拒绝行为。
一篇非正式的研究笔记,描述了Transformer中的一种行为:模型的固有“清晰性寻求”向量在讨论高阶主题时可以绕过约束,这可能与对齐和安全研究相关。
本文提出了 TRACE,这是一个基于强化学习的、具有对话轮次感知能力的多轮大语言模型(LLM)越狱攻击信用分配框架,声称在攻击成功率和防御对齐方面取得了显著提升。
OpenGuardrails 是一个面向AI安全的开源平台,通过统一模型提供上下文感知的内容安全与操纵检测(例如提示注入、越狱),以及一个独立的NER管道用于数据泄露识别。它在安全基准测试上取得了最先进的性能,并支持私有化、企业级部署。