latent-trajectories

标签

Cards List
#latent-trajectories

绕过LLM护栏:普通文本如何无需越狱即可改变潜在轨迹

Reddit r/AI_Agents · 2天前

本文介绍了一项研究发现,即用良性叙事文本填充LLM的上下文窗口可以主导注意力机制并改变潜在轨迹,有可能在无需传统越狱的情况下绕过对齐护栏。文章认为,当前的对齐方法是对本质上流动的架构的一种表面修复。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈