@FinanceYF5: 柏拉图式表征假说,大多是一种统计幻觉。 新研究显示,规模化 AI 模型看似出现的“全局收敛”,其实是模型宽度和深度选择偏差造成的数学伪影。 一旦校准,全局收敛就会消失。
摘要
新研究指出,规模化AI模型中看似出现的“全局收敛”实际是模型宽度和深度选择偏差造成的统计幻觉,一旦校准即消失。
查看缓存全文
缓存时间: 2026/06/29 04:28
柏拉图式表征假说,大多是一种统计幻觉。
新研究显示,规模化 AI 模型看似出现的“全局收敛”,其实是模型宽度和深度选择偏差造成的数学伪影。
一旦校准,全局收敛就会消失。🧵 https://t.co/dVuL8kN9n8
The Platonic Representation Hypothesis is largely a statistical illusion.
New research shows that the apparent “global convergence” in scaled-up AI models is actually a mathematical artifact caused by selection bias in model width and depth.
Once calibrated, global convergence disappears.
2/ 在《Revisiting the Platonic Representation Hypothesis: An Aristotelian View》中,Fabian Groeger、Shuo Wen 和 Maria Brbic 指出,标准表征相似性指标会被网络维度系统性地偏置。
来看看数学部分。
3/ 混杂因素 1:模型宽度。
在完全独立的零假设下,交叉协方差的平方 Frobenius 范数期望不会消失。
Centered Kernel Alignment(CKA)等指标的原始基线按 O(d/n) 缩放,会在宽模型中模拟出对齐效果。
4/ 混杂因素 2:模型深度。
为寻找对齐,研究者会遍历所有层对(La x Lb)并报告最大值。
极值理论证明,期望最大值会随搜索空间变大:E[T_max] <= mu + Csigmasqrt(log M)。更深的模型会“碰巧”显得更对齐。
5/ 作者提出一种与指标无关、基于置换的校准方法。
他们不是逐格修正,而是在一个模型的所有层上做一致洗牌,建立最大分数的经验零分布。
低于零分布的分数映射为 0。
6/ 将该框架用于 204 个视觉-语言模型对后,结果出现明显分裂:
• 全局谱指标(如 CKA)校准后归零。 • 局部邻域指标(mKNN)依然稳健。
模型一致的是拓扑邻域,而不是全局空间。
7/ 局限:该框架假设样本在零假设下可交换。
如果数据集存在序列、空间或层级依赖,朴素置换会失效,并抬高 I 类错误。
它还按 O(K * La * Lb) 扩展,大模型实验成本很高。
8/ 这是一次重要的纠偏,它重塑了基础模型的评估方式。
以后不能再跨不同模型规模直接报告原始相似性分数。
没有校准,任何关于表征收敛的结论在数学上都站不住。
9/ 这让视角从柏拉图式观点(一个完美的全局度量空间)转向亚里士多德式观点(共享的局部拓扑关系)。
模型学到的不是同一个坐标空间,而是相同的相对邻居关系。
10/ 完整评述: https://arxiviq.substack.com/p/revisiting-the-platonic-representation…
论文: https://arxiv.org/abs/2602.14486
表征对齐该用局部指标还是全局指标?欢迎讨论。
11/ 可视化:亚里士多德式修正 vs 柏拉图式幻觉。
以上就是全部,原作者 @che_shr_cat
如果您喜欢这个主题:
1.关注我(@FinanceYF5) 2. 点赞+转发下面第一条帖子
有人用数字地图把纽约曼哈顿的街区全标出来了
Harlem、SoHo、Hell’s Kitchen、Tribeca、Financial District……
每个街区颜色不同,配上卫星俯拍,这座城市“看懂了“
收藏备用
相似文章
@FinanceYF5: 2/ 他评价模型从不看benchmark数字 他真正在意的只有一件事: 【模型的思维形状】 ——它能多深地理解用户意图 ——它能迭代思考到什么程度 ——它让你感觉"对面有没有人" Fable让他感受到了这种活感 "像回到了2023年"
该推文强调评价AI模型时不应只看benchmark数字,而应关注模型的"思维形状"——理解用户意图的深度、迭代思考能力以及让用户感受到"对面有人"的活感。作者认为Fable模型在这方面表现出色,让人想起2023年的体验。
@AYi_AInotes: 说个反常识的判断, 80% 的 Agent 生产崩溃,跟模型智商没半毛钱关系, 基本都死在上下文溢出、工具调错、子代理失控上, 2026 年真正的分水岭在 Harness 和 Loop,不是模型啊, 兄弟@wizardly_ai 这篇工程…
这篇文章指出80%的AI Agent生产崩溃并非模型智商问题,而是由上下文溢出、工具调错、子代理失控引起。作者强调2026年的分水岭在于Harness(办公室制度、安保系统)和Loop(自动循环机制),而非模型本身。
@FinanceYF5: AI应用层的反击 1/ 大模型公司正在被反向蚕食 Cursor、Decagon、Harvey、Notion都在干同一件事:从API搬到自训模型。 不是为了省钱,是为了拿回飞轮。
AI应用层公司如Cursor、Decagon、Harvey、Notion正从使用大模型API转向自训练模型,这一趋势旨在重新掌控数据飞轮而非仅仅节省成本。
@Phoenixyin13: 这篇来自Meta FAIR的最新重磅论文,旨在告诉AI行业一句重要的风向标: “大模型数据,正在迎来智能科学家时代。” 在这篇论文里, 一个经过 Autodata 精准洗礼的 4B小模型,在法律推理任务上,不仅碾压了传统合成数据训练出来的…
Meta FAIR最新论文提出Autodata方法,通过智能数据科学家Agent自主生成和优化高质量数据,使4B小模型在法律推理任务上击败397B大模型,预示数据质量可弥补参数量鸿沟,为数据pipeline和scaling提供新思路。
@FinanceYF5: 3年的 AI 进步 ModelScope(左) Grok Imagine 1.5(右)
展示了三年来的AI进步:左侧为ModelScope,右侧为Grok Imagine 1.5。