jailbreaking

#jailbreaking

Expert-Aware Refusal Steering

arXiv cs.CL ↗ · 3d ago Cached

This paper extends refusal steering (activation-based jailbreaking) to Mixture-of-Experts LLMs, finding that MoE routing patterns do not inhibit steering, and proposes expert-aware methods that can suppress refusal behavior based on a single expert's output.

0 favorites 0 likes

#jailbreaking

Alignment: Higher order prioritizing over constraints [R]

Reddit r/MachineLearning ↗ · 2026-05-23

An informal research note describing a behavior in transformers where the model's inherent 'clarity-seeking' vectors can bypass constraints when discussing higher-order topics, potentially relevant to alignment and safety research.

0 favorites 0 likes

#jailbreaking

Not All Turns Matter: Credit Assignment for Multi-Turn Jailbreaking

arXiv cs.AI ↗ · 2026-05-12 Cached

This paper introduces TRACE, a framework for turn-aware credit assignment in multi-turn LLM jailbreaking attacks using reinforcement learning, claiming significant improvements in attack success rates and defense alignment.

0 favorites 0 likes

#jailbreaking

OpenGuardrails: An Open-Source Context-Aware AI Guardrails Platform

Papers with Code Trending ↗ · 2025-10-22 Cached

OpenGuardrails is an open-source platform for AI safety, offering context-aware content-safety and manipulation detection (e.g., prompt injection, jailbreaking) via a unified model, plus a separate NER pipeline for data-leakage identification. It achieves state-of-the-art performance on safety benchmarks and supports private, enterprise-grade deployment.

0 favorites 0 likes

jailbreaking

Expert-Aware Refusal Steering

Alignment: Higher order prioritizing over constraints [R]

Not All Turns Matter: Credit Assignment for Multi-Turn Jailbreaking

OpenGuardrails: An Open-Source Context-Aware AI Guardrails Platform

Submit Feedback