标签
提出了一种用于大语言模型中潜在思维表征的公理化评估框架,揭示当前表征在23个推理任务中无法满足四个基本功能公理(Causality, Minimality, Separability, Stability),表明表征质量存在结构性差距。