jailbreaking

#jailbreaking

专家感知的拒绝引导

arXiv cs.CL ↗ · 3天前缓存

本文将拒绝引导（基于激活的越狱方法）扩展至混合专家（MoE）大语言模型，发现 MoE 的路由模式并不会阻碍引导效果，并提出了专家感知方法，可基于单个专家的输出来抑制拒绝行为。

0 人收藏 0 人点赞

#jailbreaking

Reddit r/MachineLearning ↗ · 2026-05-23

一篇非正式的研究笔记，描述了Transformer中的一种行为：模型的固有“清晰性寻求”向量在讨论高阶主题时可以绕过约束，这可能与对齐和安全研究相关。

0 人收藏 0 人点赞

#jailbreaking

arXiv cs.AI ↗ · 2026-05-12 缓存

本文提出了 TRACE，这是一个基于强化学习的、具有对话轮次感知能力的多轮大语言模型（LLM）越狱攻击信用分配框架，声称在攻击成功率和防御对齐方面取得了显著提升。

0 人收藏 0 人点赞

#jailbreaking

Papers with Code Trending ↗ · 2025-10-22 缓存

OpenGuardrails 是一个面向AI安全的开源平台，通过统一模型提供上下文感知的内容安全与操纵检测（例如提示注入、越狱），以及一个独立的NER管道用于数据泄露识别。它在安全基准测试上取得了最先进的性能，并支持私有化、企业级部署。

0 人收藏 0 人点赞