@dunik_7:那场价值9万美元的斯坦福讲座,解释了为什么AI能通过所有基准测试,却在你的代码库上崩溃,刚刚发布……

X AI KOLs Timeline 新闻

摘要

一场由Percy Liang主讲的免费斯坦福讲座,关于AI泛化,解释了为什么模型在基准测试中表现出色,但在实际代码库中却失败,内容涵盖基准记忆、偏差-方差权衡和幻觉。

那场价值9万美元的斯坦福讲座,解释了为什么AI能通过所有基准测试,却在你的代码库上崩溃,刚刚免费发布在YouTube上。 一个词:泛化。 这就是AI能够在未经训练的问题上发挥作用,同时又自信地在看似简单的问题上失败的根本原因。 来自Percy Liang的80分钟讲座。看完这个,你会明白三件事: / 为什么基准测试的分数会欺骗你(模型可以记住测试,却一无所知) / 为什么“更聪明”的模型有时在简单任务上表现更差(偏差-方差,不是Bug) / 为什么Claude能回答一个从未出现在训练数据中的问题,却接着胡编下一个 第4讲,共约20讲。免费。 之后,“AI只是产生了幻觉”就不再是借口了。你会在它崩溃之前就看出问题所在。
查看原文
查看缓存全文

缓存时间: 2026/05/22 13:52

价值9万美元的斯坦福讲座刚刚在YouTube上免费发布,它解释了为何AI能通过所有基准测试,却仍然会在你的代码库上出问题。

核心就一个词:泛化。

这正是AI能解决从未接受过训练的问题的原因,也是它会在看似简单的任务上自信犯错的原因。

Percy Liang的80分钟讲座。看完之后,你会对以下三点茅塞顿开:

/ 为什么基准测试分数会撒谎(模型可以记住测试题却什么都不理解)

/ 为什么“更聪明”的模型有时反而在简单问题上表现更差(偏差-方差权衡,不是bug)

/ 为什么Claude能回答从未出现在训练数据中的问题,却紧接着胡编乱造下一个 这是约20讲系列中的第4讲。免费。

此后,“AI只是产生了幻觉”就不再是借口了。你能在它出问题之前就看出哪里会崩。

dunik (@dunik_7): Anthropic支付其机器学习工程师年薪超过50万美元部署的成果,正是Percy Liang在CS221第3讲中免费教授的内容。

80分钟。一块白板。涵盖从“一个神经元”到此刻在你IDE中运行的模型之间的一切。

看完之后,你会对以下三点茅塞顿开:

/ 为什么两个Claude提示词

相似文章