标签
本文介绍了一项研究发现,即用良性叙事文本填充LLM的上下文窗口可以主导注意力机制并改变潜在轨迹,有可能在无需传统越狱的情况下绕过对齐护栏。文章认为,当前的对齐方法是对本质上流动的架构的一种表面修复。