@yasminekho: 斯坦福大学教授朱迪·范在麻省理工学院登台,剖析了为何人类如此擅长将不可见变为可见……
摘要
斯坦福大学教授朱迪·范在麻省理工学院讨论人类如何通过视觉工具将不可见变为可见,并与AI在视觉理解上的局限性进行对比,她还展示了关于绘画、草图识别以及人类与GPT-4V等AI模型在图表阅读性能差距方面的研究。
查看缓存全文
缓存时间: 2026/07/02 12:22
斯坦福大学教授Judy Fan在MIT的演讲中揭示了人类为何如此擅长将不可见变为可见……
以及为何人工智能并未真正像我们那样学会“看见“。
这彻底改变了你对人类智能与人工智能之间关系的理解:
-
大自然从未赐予我们直线或锐角。数轴、坐标平面乃至基础几何学,都是人类的发明。我们创造了大自然中不存在的工具,只因为我们需要更清晰的思考方式。
-
笛卡尔发明的坐标系解决了一个困扰数学家数个世纪的问题——立方体体积的翻倍。这一工具一经发明便变得不可或缺,以至于如今地球上几乎所有的数学课程仍依赖于它。
-
人类至少在三万到八万年前就开始这样做了。人类进步的历程与在环境中标记信息的历程密不可分——从洞穴壁画,到伽利略的望远镜,再到我们永远无法亲眼所见的费曼粒子图。
-
每一项重大科学突破都依赖于一种让不可见变得可见的视觉工具。达尔文需要并排的雀鸟插图来观察那些原本过于细微而难以察觉的变异。卡哈尔需要显微镜下神经元的精细绘图来绘制神经系统的连接方式。
-
Fan的研究团队探究了一个看似简单的问题:人们如何决定在画中画什么、省略什么。当两个人玩绘画游戏时,如果目标物体有相近的竞争者,绘画者会使用更多细节;而当目标物体独一无二时,他们则会用更少的笔触、花更少的时间,前提是无需更多细节。
-
人们并非单纯复制所见。他们在不断做出判断:何种细节水平才能真正服务于沟通目标——而且这是自然而然发生的,无需经过背后的理论教导。
-
画出一件东西让别人识别,与画出它让别人理解其工作原理,这两者之间存在真正的差异。在一项研究中,参与者绘制的解释性示意图强调了机器中运动、因果关系的部件,而描述性绘图则强调背景和整体外观——即便两者画的是完全相同的物体。
-
解释性绘图在帮助他人理解如何操作机器方面确实更胜一筹,但在帮助识别机器具体是哪一种时则较差。你无法为单一绘图同时优化两个目标。沟通总是涉及取舍。
-
在照片上训练的人工智能视觉模型,对简单稀疏的素描也能出奇地泛化,这表明基于相似度的识别并非我们自说自话。现代神经网络确实能以真实准确度复现这种能力。
-
但是,在识别素描时,AI模型的置信度与人类之间仍存在巨大且可度量的差距——即使两组受试者面对相同图像回答相同问题。人类在其判断中显然更为可靠、更为一致。
-
当研究人员在严格限制笔画数的条件下比较人类绘制的素描与AI生成的素描时,在较高的笔画数预算下两者识别度相近,但随着预算缩减,两者表现显著分化。当资源稀缺时,人类和AI系统以根本不同的方式简化素描。
-
阅读图表并非单一技能。它涉及感知——知道往哪里看——将视觉信息映射到实际问题上,然后将其转化为答案。每一步都可能独立出错,而且即便人们得出相同的错误答案,其背后的根本原因也可能截然不同。
-
在与人类直接进行的图表阅读任务对比中,包括GPT-4V在内的领先多模态AI模型表现出了显著的性能差距。即使模型整体准确率接近人类水平,其错误模式也完全不像人类实际犯错的方式。
-
人们根据具体需要回答的问题来选择完全不同类型的图表,而非出于对柱状图或散点图的泛泛偏好。他们对图表的选择紧密关联到哪种可视化方式能真正帮助某人正确回答该问题。
-
在教育研究中广泛使用的两项图表素养测试实际上彼此高度相关——这表明它们测量的是重叠的技能。但当研究人员深入分析实际错误模式时,教科书中常用的标准分类(如“找到最大值“或“识别聚类“)在解释人们为何出错方面远不如一个更基础的四因素模型有效。
-
所有这些研究背后最深层的目标不仅仅是学术好奇。而是最终帮助学生和普通人真正掌握科学和现代决策日益依赖的视觉工具——因为每一代人都应该站在前一代人构建的视觉工具之上,看得比上一代更远。
关注 @yasminekho,获取更多关于如何更好地思考、更清晰以及构建更有意识的生活的见解。
相似文章
@dunik_7:那场价值9万美元的斯坦福讲座,解释了为什么AI能通过所有基准测试,却在你的代码库上崩溃,刚刚发布……
一场由Percy Liang主讲的免费斯坦福讲座,关于AI泛化,解释了为什么模型在基准测试中表现出色,但在实际代码库中却失败,内容涵盖基准记忆、偏差-方差权衡和幻觉。
@codewithimanshu:斯坦福教授刚刚免费公开了AI智能体与自动化的全部底层逻辑,1小时讲座。T…
斯坦福教授发布免费1小时讲座,系统讲解AI智能体、工具调用、多步工作流、规划与反思的核心原理。
@rohanpaul_ai: Fei-Fei Li警告AI可能过于聚焦于语言模型。世界不仅仅是屏幕上的文字。它是物理的…
Fei-Fei Li警告,AI过度关注语言模型,强调世界是物理的、视觉的、空间的,并且大部分经济依赖于具身智能。
@rohanpaul_ai: 一篇来自斯坦福、MIT、哈佛和Anthropic的优秀论文。给出了关于为何大型模型能学习……的清晰训练解释。
一项来自斯坦福、MIT、哈佛和Anthropic的论文解释,大型AI模型能更好地学习稀有技能,因为训练期间它们遗忘更少;其额外容量保护弱学习信号不被常见任务覆盖。
@AiwithYasir:突发:这篇来自斯坦福与哈佛的论文解释了为何大多数“agentic AI”系统在演示中惊艳、落地却翻车
斯坦福与哈佛研究者指出,agentic AI 系统在现实部署中失败,并非因为“不够聪明”,而是某些根本性问题导致演示效果在实际场景中崩溃。