platonic-representation-hypothesis

#platonic-representation-hypothesis

无理解的趋同：语言模型表征一致但推理分歧

arXiv cs.CL ↗ · 2026-05-25 缓存

本文通过考察来自8个家族的16个语言模型在800个推理问题上的表现，探究了Platonic Representation Hypothesis。研究发现，虽然模型在内部表征上趋于一致，但在推理过程中，尤其是决策后阶段，它们出现分歧，而且共享的表征对预测的因果影响极小。

0 人收藏 0 人点赞