semantic-hijacking

标签

Cards List
#semantic-hijacking

研究求助:观察——语义密集上下文无需越狱提示即可引发强后期层发散 [D]

Reddit r/MachineLearning · 昨天

一项实证研究表明,长篇幅、语义密集且良性的文本能够偏移模型的潜在空间并绕过对齐,促使其生成原本被屏蔽的评论。作者并非专家,请求对其指标进行审计,以区分真正的语义劫持与假象。

0 人收藏 0 人点赞
#semantic-hijacking

探究隐式潜在轨迹偏移:通过长篇幅连贯上下文绕过对齐

Reddit r/ArtificialInteligence · 2天前

一项实证研究,研究长篇幅、语义密集的良性文本如何偏移模型的潜在空间轨迹,稀释初始系统提示,并绕过训练后对齐约束——如在闭源和开源模型中所观察到的那样。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈