@yasminekho: 斯坦福大学教授朱迪·范在麻省理工学院登台，剖析了为何人类如此擅长将不可见变为可见……

X AI KOLs Timeline 2026/07/01 12:08 新闻

摘要

斯坦福大学教授朱迪·范在麻省理工学院讨论人类如何通过视觉工具将不可见变为可见，并与AI在视觉理解上的局限性进行对比，她还展示了关于绘画、草图识别以及人类与GPT-4V等AI模型在图表阅读性能差距方面的研究。

斯坦福大学教授朱迪·范在麻省理工学院登台，剖析了为何人类如此擅长将不可见变为可见…… 以及为何AI并未真正学会像我们一样“看”。这彻底改变了你对人类智能与人工智能的看法： 1. 大自然从未赋予我们直线或尖角。数轴、坐标平面，甚至基础几何都是人类的发明。我们创造了自然界中不存在的工具，仅仅是因为我们需要更清晰的思考方式。 2. 笛卡尔发明的坐标系解决了一个困扰数学家数世纪的问题——立方体体积倍增。这一工具一经发明，便变得不可或缺，以至于如今几乎每一个数学课程都在依赖它。 3. 人类进行这项工作已有至少3万到8万年的历史。人类进步的历程与对环境的标记密不可分——从洞穴墙壁到伽利略的望远镜，再到我们永远无法用肉眼看到的粒子费曼图。 4. 每一个重大的科学突破都依赖于某种视觉工具，它将不可见变为可见。达尔文需要并排的雀鸟插图来观察那些过于细微而难以察觉的变异。卡哈尔需要在显微镜下绘制神经元的详细图谱，以映射神经系统的连接方式。 5. 范的研究小组研究了一个看似简单的问题：人们如何决定在绘画中画什么和不画什么。当两人玩绘画游戏时，如果目标对象有相近的竞争者，绘画者会使用更多细节；而如果目标对象单独存在，则会使用更少的笔触和时间，前提是不需要更多细节。 6. 人们并非简单地复制所见。他们不断判断何种细节程度真正服务于沟通目标，并且自然地做到这一点，从未接受过背后的理论教育。 7. 画出供人识别的东西和画出让人理解其工作原理的东西之间存在真正的差异。在一项研究中，参与者绘制的解释性示意图强调机器的运动部件和因果部件，而描述性绘画则强调背景和整体外观，尽管两者绘制的是同一物体。 8. 解释性绘画确实更擅长帮助人们弄清楚如何操作机器，但在帮助人们识别具体是哪种机器方面效果较差。你无法优化一幅画同时满足两个目标。沟通总是涉及权衡。 9. 基于照片训练的AI视觉模型在简单的稀疏草图上泛化效果出奇地好，这表明基于相似性的识别并非我们自说自话的故事，而是现代神经网络能够以真实准确性复现的能力。 10. 但AI模型识别草图的自信度与人类之间存在巨大且可测量的差距，即使两组对相同图像回答相同问题也是如此。人类的判断要可靠得多，也一致得多。 11. 当研究人员在严格的笔触预算下比较人类绘制的草图和AI生成的草图时，两者在较高预算下可识别性相似，但随着预算缩减，两者出现显著分歧。在资源稀缺时，人类和AI系统以根本不同的方式简化绘图。 12. 阅读图表并非单一技能。它涉及感知、知道看哪里、将视觉信息映射到实际问题，然后将这种映射转化为答案。这些步骤中的每一步都可能独立出错，人们即使得出相同的错误答案，其根本原因也截然不同。 13. 在与人类直接比较的图表阅读任务中，包括GPT-4V在内的领先多模态AI模型显示出明显的性能差距。即使模型的整体准确率接近人类水平，其错误模式也与人类实际的错误方式完全不同。 14. 人们根据自己试图回答的具体问题选择不同类型的图表，而非出于对柱状图或散点图的普遍偏好。他们的图表选择与哪种可视化方式能真正帮助他人正确回答该特定问题密切相关。 15. 教育研究中两个最常用的图表素养测试彼此高度相关，表明它们测量了重叠的技能。但当研究人员深入分析实际错误模式时，教科书中的标准类别（如“找出最大值”或“识别聚类”）未能像更基础的、潜在的四个因素模型那样很好地解释人们为何犯错。 16. 所有这些研究的最终目标不仅仅是学术好奇心。而是为了最终帮助学生和普通人真正掌握科学和现代决策越来越依赖的视觉工具，因为每一代人都应该通过站在前一代人构建的视觉工具上，比上一代人看得更远。关注@yasminekho，获取更多关于更好思考、更清晰表达以及构建更有意义生活的想法。

查看原文

查看缓存全文

缓存时间: 2026/07/02 12:22

斯坦福大学教授Judy Fan在MIT的演讲中揭示了人类为何如此擅长将不可见变为可见……

以及为何人工智能并未真正像我们那样学会“看见“。

这彻底改变了你对人类智能与人工智能之间关系的理解：

大自然从未赐予我们直线或锐角。数轴、坐标平面乃至基础几何学，都是人类的发明。我们创造了大自然中不存在的工具，只因为我们需要更清晰的思考方式。
笛卡尔发明的坐标系解决了一个困扰数学家数个世纪的问题——立方体体积的翻倍。这一工具一经发明便变得不可或缺，以至于如今地球上几乎所有的数学课程仍依赖于它。
人类至少在三万到八万年前就开始这样做了。人类进步的历程与在环境中标记信息的历程密不可分——从洞穴壁画，到伽利略的望远镜，再到我们永远无法亲眼所见的费曼粒子图。
每一项重大科学突破都依赖于一种让不可见变得可见的视觉工具。达尔文需要并排的雀鸟插图来观察那些原本过于细微而难以察觉的变异。卡哈尔需要显微镜下神经元的精细绘图来绘制神经系统的连接方式。
Fan的研究团队探究了一个看似简单的问题：人们如何决定在画中画什么、省略什么。当两个人玩绘画游戏时，如果目标物体有相近的竞争者，绘画者会使用更多细节；而当目标物体独一无二时，他们则会用更少的笔触、花更少的时间，前提是无需更多细节。
人们并非单纯复制所见。他们在不断做出判断：何种细节水平才能真正服务于沟通目标——而且这是自然而然发生的，无需经过背后的理论教导。
画出一件东西让别人识别，与画出它让别人理解其工作原理，这两者之间存在真正的差异。在一项研究中，参与者绘制的解释性示意图强调了机器中运动、因果关系的部件，而描述性绘图则强调背景和整体外观——即便两者画的是完全相同的物体。
解释性绘图在帮助他人理解如何操作机器方面确实更胜一筹，但在帮助识别机器具体是哪一种时则较差。你无法为单一绘图同时优化两个目标。沟通总是涉及取舍。
在照片上训练的人工智能视觉模型，对简单稀疏的素描也能出奇地泛化，这表明基于相似度的识别并非我们自说自话。现代神经网络确实能以真实准确度复现这种能力。
但是，在识别素描时，AI模型的置信度与人类之间仍存在巨大且可度量的差距——即使两组受试者面对相同图像回答相同问题。人类在其判断中显然更为可靠、更为一致。
当研究人员在严格限制笔画数的条件下比较人类绘制的素描与AI生成的素描时，在较高的笔画数预算下两者识别度相近，但随着预算缩减，两者表现显著分化。当资源稀缺时，人类和AI系统以根本不同的方式简化素描。
阅读图表并非单一技能。它涉及感知——知道往哪里看——将视觉信息映射到实际问题上，然后将其转化为答案。每一步都可能独立出错，而且即便人们得出相同的错误答案，其背后的根本原因也可能截然不同。
在与人类直接进行的图表阅读任务对比中，包括GPT-4V在内的领先多模态AI模型表现出了显著的性能差距。即使模型整体准确率接近人类水平，其错误模式也完全不像人类实际犯错的方式。
人们根据具体需要回答的问题来选择完全不同类型的图表，而非出于对柱状图或散点图的泛泛偏好。他们对图表的选择紧密关联到哪种可视化方式能真正帮助某人正确回答该问题。
在教育研究中广泛使用的两项图表素养测试实际上彼此高度相关——这表明它们测量的是重叠的技能。但当研究人员深入分析实际错误模式时，教科书中常用的标准分类（如“找到最大值“或“识别聚类“）在解释人们为何出错方面远不如一个更基础的四因素模型有效。
所有这些研究背后最深层的目标不仅仅是学术好奇。而是最终帮助学生和普通人真正掌握科学和现代决策日益依赖的视觉工具——因为每一代人都应该站在前一代人构建的视觉工具之上，看得比上一代更远。

关注 @yasminekho，获取更多关于如何更好地思考、更清晰以及构建更有意识的生活的见解。

@yasminekho: 斯坦福大学教授朱迪·范在麻省理工学院登台，剖析了为何人类如此擅长将不可见变为可见……

相似文章

@dunik_7：那场价值9万美元的斯坦福讲座，解释了为什么AI能通过所有基准测试，却在你的代码库上崩溃，刚刚发布……

@codewithimanshu：斯坦福教授刚刚免费公开了AI智能体与自动化的全部底层逻辑，1小时讲座。T…

@rohanpaul_ai: Fei-Fei Li警告AI可能过于聚焦于语言模型。世界不仅仅是屏幕上的文字。它是物理的…

@rohanpaul_ai: 一篇来自斯坦福、MIT、哈佛和Anthropic的优秀论文。给出了关于为何大型模型能学习……的清晰训练解释。

@AiwithYasir：突发：这篇来自斯坦福与哈佛的论文解释了为何大多数“agentic AI”系统在演示中惊艳、落地却翻车

提交意见反馈