表示对齐基于线性结构

arXiv cs.LG 2026/05/29 04:00 论文

representation-alignment linear-representation platonic-representation sparse-autoencoders cross-modal-alignment statistical-framework

摘要

本文研究了Platonic Representation Hypothesis，提出对齐源于表示中的线性结构，并引入了一个包含信号、偏置和噪声的统计框架。

arXiv:2605.28870v1 公告类型：新提交摘要：我们通过一个三元统计框架（信号、偏置和噪声）来研究Platonic Representation Hypothesis（PRH）。{1) Signal:} 我们提出Platonic对齐源于对象和属性之间的普遍关系，根据Linear Representation Hypothesis（LRH），这种关系在表示中被线性编码。我们通过稀疏自编码器提取线性对象-属性特征，并证明这些稀疏表示通常比其密集对应物表现出更强的跨模态对齐，从而提供证据表明LRH有助于解释PRH。{2) Bias:} 由于使用的架构和训练程序不同，模型具有不同的隐式偏置。我们表明这种差异可以部分缓解。中心化和归一化持续改善跨模型对齐。{3) Noise:} 有限样本训练会导致表示中的噪声。我们通过揭示LLM和文本嵌入模型中词频与对齐之间的强且一致的正相关，提供证据表明表示噪声是由数据稀缺驱动的。综合信号、偏置和噪声，我们提出了一个统计模型，该模型改进了Linear Representation Hypothesis，并解释了与来自不同现代AI架构的表示对齐相关的进一步现象。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:12

# 表示对齐基于线性结构
来源：https://arxiv.org/abs/2605.28870
查看 PDF（https://arxiv.org/pdf/2605.28870）

> 摘要：我们通过一个由信号、偏差和噪声组成的三元统计框架来研究柏拉图表示假说（PRH）。\{1\} 信号：我们提出，柏拉图式对齐源于对象与属性之间的普遍关系，这种关系根据线性表示假说（LRH）以线性方式编码在表示中。我们通过使用稀疏自编码器提取线性对象-属性特征，并证明这些稀疏表示通常比其密集对应物表现出更强的跨模态对齐，从而为 LRH 有助于解释 PRH 提供了证据。\{2\} 偏差：由于模型采用的架构和训练过程不同，它们具有不同的隐式偏差。我们表明这种差异可以部分缓解。居中和归一化能够持续改善跨模型对齐。\{3\} 噪声：有限样本训练会导致表示中的噪声。我们通过揭示在大语言模型和文本嵌入模型中词频与对齐之间存在强烈且一致的正相关关系，从而证明表示噪声是由数据稀缺驱动的。综合信号、偏差和噪声，我们提出了一个统计模型，该模型细化了线性表示假说，并进一步解释了与来自不同现代 AI 架构的表示对齐相关的现象。

## 提交历史

来自：Kiril Bangachev [查看邮箱（https://arxiv.org/show-email/4c96c204/2605.28870）] **\[v1\]**2026年5月22日星期五 12:59:01 UTC（4,726 KB）

表示对齐基于线性结构

相似文章

无理解的趋同：语言模型表征一致但推理分歧

GRALIS：通过里斯表示定理实现线性归因方法的统一规范框架

人脑中的柏拉图式表示：通用几何的无监督复原

语言模型中对齐算法的机制分析

图对齐拓扑作为接地检测的归纳偏置

提交意见反馈