表示对齐基于线性结构
摘要
本文研究了Platonic Representation Hypothesis,提出对齐源于表示中的线性结构,并引入了一个包含信号、偏置和噪声的统计框架。
arXiv:2605.28870v1 公告类型:新提交
摘要:我们通过一个三元统计框架(信号、偏置和噪声)来研究Platonic Representation Hypothesis(PRH)。{1) Signal:} 我们提出Platonic对齐源于对象和属性之间的普遍关系,根据Linear Representation Hypothesis(LRH),这种关系在表示中被线性编码。我们通过稀疏自编码器提取线性对象-属性特征,并证明这些稀疏表示通常比其密集对应物表现出更强的跨模态对齐,从而提供证据表明LRH有助于解释PRH。{2) Bias:} 由于使用的架构和训练程序不同,模型具有不同的隐式偏置。我们表明这种差异可以部分缓解。中心化和归一化持续改善跨模型对齐。{3) Noise:} 有限样本训练会导致表示中的噪声。我们通过揭示LLM和文本嵌入模型中词频与对齐之间的强且一致的正相关,提供证据表明表示噪声是由数据稀缺驱动的。综合信号、偏置和噪声,我们提出了一个统计模型,该模型改进了Linear Representation Hypothesis,并解释了与来自不同现代AI架构的表示对齐相关的进一步现象。
查看缓存全文
缓存时间: 2026/05/29 09:12
# 表示对齐基于线性结构
来源:https://arxiv.org/abs/2605.28870
查看 PDF(https://arxiv.org/pdf/2605.28870)
> 摘要:我们通过一个由信号、偏差和噪声组成的三元统计框架来研究柏拉图表示假说(PRH)。\{1\} 信号:我们提出,柏拉图式对齐源于对象与属性之间的普遍关系,这种关系根据线性表示假说(LRH)以线性方式编码在表示中。我们通过使用稀疏自编码器提取线性对象-属性特征,并证明这些稀疏表示通常比其密集对应物表现出更强的跨模态对齐,从而为 LRH 有助于解释 PRH 提供了证据。\{2\} 偏差:由于模型采用的架构和训练过程不同,它们具有不同的隐式偏差。我们表明这种差异可以部分缓解。居中和归一化能够持续改善跨模型对齐。\{3\} 噪声:有限样本训练会导致表示中的噪声。我们通过揭示在大语言模型和文本嵌入模型中词频与对齐之间存在强烈且一致的正相关关系,从而证明表示噪声是由数据稀缺驱动的。综合信号、偏差和噪声,我们提出了一个统计模型,该模型细化了线性表示假说,并进一步解释了与来自不同现代 AI 架构的表示对齐相关的现象。
## 提交历史
来自:Kiril Bangachev [查看邮箱(https://arxiv.org/show-email/4c96c204/2605.28870)] **\[v1\]**2026年5月22日星期五 12:59:01 UTC(4,726 KB)相似文章
无理解的趋同:语言模型表征一致但推理分歧
本文通过考察来自8个家族的16个语言模型在800个推理问题上的表现,探究了Platonic Representation Hypothesis。研究发现,虽然模型在内部表征上趋于一致,但在推理过程中,尤其是决策后阶段,它们出现分歧,而且共享的表征对预测的因果影响极小。
GRALIS:通过里斯表示定理实现线性归因方法的统一规范框架
这篇 arXiv 预印本介绍了 GRALIS,这是一个利用里斯表示定理(Riesz Representation Theory)来形式化和比较 SHAP、LIME 及积分梯度(Integrated Gradients)等线性归因方法的统一数学框架。
人脑中的柏拉图式表示:通用几何的无监督复原
本文研究了是否可以通过无监督几何方法对齐不同被试视觉皮层的fMRI表示,发现了个体间近似等距结构的证据,将柏拉图式表示假说扩展到人脑。
语言模型中对齐算法的机制分析
本文对六种偏好优化方法(PPO、DPO、SimPO、ORPO、GRPO、KTO)在三种开源模型系列上进行了系统性的机制分析,通过探针和稀疏自编码器揭示了对齐算法如何以不同的方式重塑内部表示。
图对齐拓扑作为接地检测的归纳偏置
本文介绍了将图对齐拓扑作为接地检测的归纳偏置,使用图神经网络对参考信息与LLM输出之间的对齐结构进行建模。该方法在多个幻觉和问答数据集上取得了最先进的结果,性能优于GPT-4o。