geometric-representation

#geometric-representation

DOG-DPO：面向安全对齐的几何动态优化

arXiv cs.LG ↗ · 3天前缓存

DOG-DPO 是一种无需训练的数据选择框架，它将偏好对视为结构化几何信号，将多数据集偏好几何分解为锚定子空间和残差子空间，以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。

0 人收藏 0 人点赞

#geometric-representation

arXiv cs.CL ↗ · 2026-05-15 缓存

本文提出了一种Polar Probe，通过在学习的子空间中用距离和方向表示实体关系，从LLM激活中线性恢复语义结构。在算术、视觉场景、家谱、地铁地图和社交互动等多个领域的测试表明，该编码出现在中间层，能泛化到新实体，并对模型预测产生因果影响。

0 人收藏 0 人点赞