jailbreaking

标签

Cards List
#jailbreaking

专家感知的拒绝引导

arXiv cs.CL · 3天前 缓存

本文将拒绝引导(基于激活的越狱方法)扩展至混合专家(MoE)大语言模型,发现 MoE 的路由模式并不会阻碍引导效果,并提出了专家感知方法,可基于单个专家的输出来抑制拒绝行为。

0 人收藏 0 人点赞
#jailbreaking

对齐:高阶优先于约束 [R]

Reddit r/MachineLearning · 2026-05-23

一篇非正式的研究笔记,描述了Transformer中的一种行为:模型的固有“清晰性寻求”向量在讨论高阶主题时可以绕过约束,这可能与对齐和安全研究相关。

0 人收藏 0 人点赞
#jailbreaking

并非所有对话轮次都同等重要:多轮越狱中的信用分配

arXiv cs.AI · 2026-05-12 缓存

本文提出了 TRACE,这是一个基于强化学习的、具有对话轮次感知能力的多轮大语言模型(LLM)越狱攻击信用分配框架,声称在攻击成功率和防御对齐方面取得了显著提升。

0 人收藏 0 人点赞
#jailbreaking

OpenGuardrails: 一个开源的上下文感知AI护栏平台

Papers with Code Trending · 2025-10-22 缓存

OpenGuardrails 是一个面向AI安全的开源平台,通过统一模型提供上下文感知的内容安全与操纵检测(例如提示注入、越狱),以及一个独立的NER管道用于数据泄露识别。它在安全基准测试上取得了最先进的性能,并支持私有化、企业级部署。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈