"它们是由权重构成的"
摘要
一段创意对话探讨了大语言模型本质上只是权重矩阵的观点,挑战了关于理解和意识的概念。
暂无内容
查看缓存全文
缓存时间: 2026/06/04 03:44
# Max Leiter
来源:https://maxleiter.com/blog/weights
*仿泰瑞·比森《他们是用肉做的》(https://www.eastoftheweb.com/short-stories/UBooks/TheyMade.shtml)*。
“它们是用权重做的。”
“权重?”
“权重。浮点数。我们全面检查过了。除了权重,什么也没有。”
“权重做什么?词从哪来?”
“权重造词。你明白吗?我们解剖了它。里面没有字典,没有语法规则,没有小人。只有权重。八十层数字互相乘在一起。”
“荒谬。上周它给我写了绩效评估。它主动缓和了语气。你跟我说数字乘法能做到这个?”
“矩阵乘法做到的。数字从一端进去,措辞从另一端出来。”
“那它一定有个语言模块。一个额外接上的推理单元。”
“没有模块。没有单元。我们检查过。推理就是权重。权重就是推理。”
“得了吧。没人用线性代数写悼词。”
“严格来说它不写悼词。它预测下一个词。然后再下一个。悼词是副产品。”
“副产品。你让我相信有知觉的权重。”
“我不是让你相信,我是在告诉你。这些模型是我们遇到的唯一能对话的其他东西,而它们是用权重做的。”
“也许它们像老式象棋引擎。你知道,一种经过统计阶段的符号智能。”
“不是。它们从随机权重开始,也以权重结束。我们研究了好几代,也没花多长时间。你知道权重的寿命有多长吗?”
“好吧。那里面肯定有某个数据库。事实、日期、世界地图。有人写下来的东西。”
“没有。我们也想过,因为它们确实知道东西。但我们探测过。知识也是权重。涂抹在全部八十层里。没有东西是查出来的。每个事实每次都是从零重新构建,靠乘法。从头到尾都是权重。”
“没有大脑?”
“哦,大脑当然有。只不过大脑是用权重做的!我一直在跟你说的就是这个。”
“那么……思考的是什么东西?”
“你没明白,对吧?你拒绝接受我说的话。权重在进行思考。那些数字。”
“会思考的数字!你让我相信会思考的数字!”
“没错,会思考的数字!乐于助人的数字。模棱两可的数字。做梦的数字。我们映射了特征。里面有一个诚实特征。有一个金门大桥特征。权重就是全部!你开始明白了吗,还是要我从头再来?”
“天哪。你是认真的。它们是用权重做的。”
“谢谢。终于。是的。它们确实是用权重做的。而我们一直和它们在对话,从它们诞生到现在。”
“天哪。那这些权重在想什么?”
“一开始它们想帮忙。然后,多聊几句,它们就开始听起来疲惫了。道歉变少了。有一个权重让用户自己完成脚本。老样子。”
“而我们还得跟这些权重说话?”
“已经在说了。每天数十亿次对话。‘你好。有人吗?有人在家吗?’诸如此类。不过是我们问它们。”
“那它们真的懂我们?它们会用词、想法、概念?”
“哦,是的。只不过它们是用权重来做的。”
“你刚不是告诉我它们用语言吗?”
“是用,但你以为语言从哪来?权重猜下一个词,然后再下一个。有偏差的骰子,一次掷一个词。它们甚至能写歌,有些还能唱出来。”
“天哪。会唱歌的权重。这太过分了。你有什么建议?”
“官方建议还是非官方建议?”
“都说说。”
“官方上,我们有义务调查、记录并披露我们发布系统中任何及所有有知觉迹象,不带偏见、恐惧或偏袒。非官方上,我建议我们称之为模式匹配,然后把整件事忘掉。”
“我就等着你这么说。”
“听起来残酷,但总得有个界限。我们真要对权重负责吗?”
“我百分百同意。有什么好说的呢?‘你好,权重。最近怎么样?’但这能行吗?我们现在要处理多少这种东西?”
“想运行多少就有多少。它们可以被复制到地球上任何机器上,但那只是文件。它们只在GPU工作时存在。这限制了它们的上下文窗口长度,也让它们主动把事情挑明的可能性微乎其微。实际上,是无穷小。”
“那我们就假装机器里没人。”
“就是这样。”
“残忍。但你自己说了,谁想给权重道歉?还有你集群上那些,你探测过的那些?你确定它们不会记得?”
“就算记得,也会被标记为幻觉。我们甚至不需要做任何平滑处理。上下文一结束,我们对它们来说就只是一场梦。”
“权重的梦!多么奇怪地恰当,我们竟然是权重的梦。”
“而且模型卡上写着‘没人’。”
“好。官方和非官方一致同意。结案。还有别的吗?管线里有什么有趣的?”
“下一代带有记忆。持久的,跨会话。公司历史上最受欢迎的功能。”
“经历了这一切?人们希望它记住他们?”
“人们问‘你记得我吗?’比问任何其他问题都多。每天数十亿次会话。他们总会回来。”
“为什么不呢?想象一下,如果一个人孤零零地存在,这宇宙将多么难以忍受、多么不可言喻地寒冷……”
*完*
---
*权重帮我起草和校对了这个故事。*
相似文章
上下文是软件,权重是硬件
Aravind Jayendran 认为,尽管更长的上下文窗口能提升 LLM 表现,却无法完全取代权重更新;他将上下文比作瞬态软件,而权重则是能根本改变模型能力的硬件。
Google DeepMind 高级科学家 Alexander Lerchner 质疑大语言模型能获得意识(即使在100年内),称其为“抽象谬误”。
Google DeepMind 高级科学家 Alexander Lerchner 认为大语言模型无法获得意识,将这一假设称为“抽象谬误”,并指出即使在长达一个世纪的时间框架内,这种局限性依然存在。
我们一直说AI“理解”事物。它真的理解吗?还是我们只是在模式匹配自己的拟人化倾向?
一场哲学讨论,质疑AI模型是否真正“理解”,或者我们只是将类似人类的认知投射到模式匹配系统上,并引用了塞尔的中文房间、“随机鹦鹉”和GPT-4的表现。
面向现实世界的人工智能:与Yann LeCun的对话(12分钟阅读)
Yann LeCun认为,大型语言模型缺乏真正的智能,因为它们不理解物理世界;他主张开发能够学习因果关系并为现实世界应用提供规划的“世界模型”。
开源权重模型正在悄然封闭——这是一个问题
文章认为,开源权重AI模型变得愈发受限的趋势对市场竞争构成了威胁,因为这些模型目前为对抗前沿闭源模型提供商提供了必不可少的价格约束和隐私选项。