attention-level-intervention

#attention-level-intervention

Prompt-Activation Duality: Improving Activation Steering via Attention-Level Interventions

Hugging Face Daily Papers ↗ · 2026-05-11 Cached

This paper identifies KV-cache contamination as a failure mode for activation steering in dialogue and proposes GCAD, a method that extracts steering signals from prompt contributions and applies token-level gating to improve long-horizon coherence, achieving substantial gains on multi-turn benchmarks.

0 favorites 0 likes

attention-level-intervention

Prompt-Activation Duality: Improving Activation Steering via Attention-Level Interventions

Submit Feedback