semantic-hijacking

#semantic-hijacking

研究求助：观察——语义密集上下文无需越狱提示即可引发强后期层发散 [D]

Reddit r/MachineLearning ↗ · 昨天

一项实证研究表明，长篇幅、语义密集且良性的文本能够偏移模型的潜在空间并绕过对齐，促使其生成原本被屏蔽的评论。作者并非专家，请求对其指标进行审计，以区分真正的语义劫持与假象。

0 人收藏 0 人点赞

#semantic-hijacking

Reddit r/ArtificialInteligence ↗ · 2天前

一项实证研究，研究长篇幅、语义密集的良性文本如何偏移模型的潜在空间轨迹，稀释初始系统提示，并绕过训练后对齐约束——如在闭源和开源模型中所观察到的那样。

0 人收藏 0 人点赞