标签
DOG-DPO 是一种无需训练的数据选择框架,它将偏好对视为结构化几何信号,将多数据集偏好几何分解为锚定子空间和残差子空间,以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。
本文扩展了E8格几何激活注入,将其应用于监督式LLM安全路由,使用STE快照的E8策略头。虽然在干净数据上实现了近乎完美的路由,但该方法在对抗性压力下灾难性地失败,因此需要一种混合符号-几何架构,并配以经过审计的确定性规则。
本文提出了一种Polar Probe,通过在学习的子空间中用距离和方向表示实体关系,从LLM激活中线性恢复语义结构。在算术、视觉场景、家谱、地铁地图和社交互动等多个领域的测试表明,该编码出现在中间层,能泛化到新实体,并对模型预测产生因果影响。