# 巴别塔的大语言模型

ML at Berkeley 新闻

摘要

本文反思了文本生成的历史,在现代大语言模型(如 GPT-4)与豪尔赫·路易斯·博尔赫斯和克劳德·香农的早期概念之间建立了联系。文章探讨了香农的概率实验以及博尔赫斯“巴别图书馆”的隐喻,如何有助于阐明关于生成文本本质和数据结构的根本问题。

<p>GPT-4 和 Bard 迅速引发了公众的广泛关注,但我个人的感受却是一种既视感(déjà vu)。像这样的大型语言模型(LLMs)虽然是近期的发展成果,但早在 20 世纪 40 年代,人们就已开始涉足这项技术。当时,作家豪尔赫·路易斯·博尔赫斯(Jorge Luis Borges)探讨了生成文本的本质,而数学家兼工程师克劳德·香农(Claude Shannon)则实验了最简单的语言模型。透过他们的研究视角来看待大语言模型,有助于厘清当前摆在我们面前的一些根本性问题。</p> <p>在《巴别图书馆》(1941 年)中,博尔赫斯演绎了一个思想实验。想象一座浩瀚的图书馆,其中的书籍篇幅固定,例如每本书 410 页,每页 40 行,每行 80 个字符。图书管理员们发现了他们所处宇宙的一个神秘属性:只要你指定任意一个符合该固定长度的字符串,图书馆中就一定恰好有一本书包含它。</p> <div class="subscription-widget-wrap-editor" data-attrs="{&quot;url&quot;:&quot;https://mlberkeley.substack.com/subscribe?&quot;,&quot;text&quot;:&quot;Subscribe&quot;,&quot;language&quot;:&quot;en&quot;}" data-component-name="SubscribeWidgetToDOM"><div class="subscription-widget show-subscribe"><div class="preamble"><p class="cta-caption">感谢阅读 ML@B 博客!免费订阅以接收新文章并支持我的工作。</p></div><form class="subscription-widget-subscribe"><input type="email" class="email-input" name="email" placeholder="输入您的邮箱..." tabindex="-1"><input type="submit" class="button primary" value="订阅"><div class="fake-input-wrapper"><div class="fake-input"></div><div class="fake-button"></div></div></form></div></div> <p>博尔赫斯揭示了一个悖论,这一悖论既可以通过理性推导,也可以通过<a href="https://libraryofbabel.info/">探索</a>来验证:</p> <ol> <li><p>图书馆几乎包含所有你渴望的事实、论点或故事。唯一的难点在于找到那本正确的书。</p></li> <li><p>图书馆中几乎所有的书籍都是纯粹的胡言乱语,因为大多数字母的随机排列是不可读的。</p></li> </ol> <p>作为一种隐喻,巴别图书馆呼应了<a href="https://en.wikipedia.org/wiki/Infinite_monkey_theorem">无限猴子定理</a>:只要有足够的时间,猴子在打字机上随机敲击键位也能写出《哈姆雷特》。对此悖论的一种解释来自流形假设(manifold hypothesis),该假设提出,像《哈姆雷特》这样的现实世界数据难以通过随机方式生成,因为它们往往存在于结构化的子空间中——在本例中,即为伊丽莎白时代的素体诗(blank verse)。直到上个世纪,所有文本都是由人类为人类创作的,因此很少有人思考过,与所有可能字符串构成的空间相比,人类写作所占据的子空间究竟有多微小。在博尔赫斯的故事中,各种宗教派系竭力寻找高效遍历图书馆的方法,这在一定程度上预示了人们对生成文本的困惑。</p> <p>在博尔赫斯提出这一观点不到十年后,克劳德·香农开始尝试以概率方式生成英语句子。他的首次尝试是借鉴巴别图书馆的方式,对随机字符进行采样,即 <em>p(任何字符) = 1/27</em>。他生成了如下字母和空格字符串:</p> <blockquote><p>XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD.</p></blockquote> <p>如果说博尔赫斯关注的是解析这些字符串的本质,那么香农则探索了如何改进近似效果。经过几次迭代后,模型演变为 <em>p(字符 | 前 2 个字符)</em>,并从邻近的书籍中采样,生成了:</p> <blockquote><p>IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE.</p></blockquote> <p>使用三个字母作为上下文时,我们得到了常见的单词(“in”、“no”、“of”、“the”),以及“whey”和“demonstures”——后者至少听起来像英语。当然,这与当前的语言模型相去甚远。现代语言模型在三个方面呈指数级提升了其实用性(参见原始的<a href="https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf">GPT 论文</a>)。</p> <ol> <li><p>它们使用单词而非字母作为基本单元<a class="footnote-anchor" data-component-name="FootnoteAnchorToDOM" id="footnote-anchor-1" href="#footnote-1" target="_self">1</a>,尽管香农在其论文中也展示了这种方法。</p></li> <li><p>香农的生成模型无法选择或聚焦于特定主题。而在大语言模型中,用户通过提示词(prompt)提供生成的初始词语,从而引导输出。可以说,大语言模型比香农的模型具有更长的“注意力跨度”。</p></li> <li><p>最重要的是,像香农那样从印刷英语中构建频率表是不可行的,因此大语言模型利用数十亿参数从海量互联网文本语料中学习词汇统计规律。具体来说,它们学习概率 <em>p(u | u<sub>-k</sub><sub>, ..., </sub><em>u<sub>-1</sub>)</em>,其中 <em>u</em> 是紧跟在生成序列中前 <em>k</em> 个单词之后的那个词。</p></li> </ol> <p>回顾一下,我们发现了两条相关的思考脉络,一条来自博尔赫斯,一条来自香农。</p> <ol> <li><p>生成文本的本质是什么?</p></li> <li><p>大语言模型是如何学会模仿英语的?简短的回答是:庞大的数据语料库、算力资源以及 Transformer 架构。更完整的回答则需要解释这些模型的陷阱与成功之处。</p></li> </ol> <p>博尔赫斯提出的问题是哲学性的,而非科学性的,它引发了更精细的思考。正如论文<a href="https://arxiv.org/pdf/2212.03551.pdf">《谈论大语言模型》</a>所论证的那样,大语言模型是无实体的统计模型,因此其输出在本质上有别于人类的言语和文本。这是一个微不足道的区别:机器无法做出承诺或下达命令,至少不像人类那样做到。<a class="footnote-anchor" data-component-name="FootnoteAnchorToDOM" id="footnote-anchor-2" href="#footnote-2" target="_self">2</a> 然而,我们经常错误地将大语言模型的输出解读为来自有意识实体的言论。即使我们中有些人现在足够敏锐以避免陷入这一陷阱,随着这项技术的规模化发展,我们在未来是否都能保持警惕呢?</p> <p>在我们已知的写作模式中,大语言模型的输出<a href="https://posts.decontextualize.com/language-models-poetry/">最类似于</a>诗歌。并非说它们的所有输出都具有诗意,而是说,通过更审慎地阅读其生成内容,或许有助于理解大语言模型的运作机制。诗歌的细心读者会将诗人区分于诗歌中的说话者,并在赋予意义之前对语言本身保持好奇。纠正当前对大语言模型预期的一种方法,是发现 ChatGPT 等模型生成其意见的<a href="https://lil.law.harvard.edu/blog/2022/12/20/chatgpt-poems-and-secrets/">机制</a>。另一种方法是将诸如<a href="https://writings.stephenwolfram.com/2023/03/chatgpt-gets-its-wolfram-superpowers/">Wolfram</a>这样的插件集成到 ChatGPT 中,以结构化其思维过程,并将其言辞与现实世界中可验证的事实联系起来。</p> <p>回到第二个问题,大语言模型在训练过程中获得了令人印象深刻的语言能力,但这是否意味着它的思考方式像人类一样?在 2022 年的一篇论文中,研究人员比较了 GPT-2 与人类对文本片段的“惊讶感”(surprise),即双方是否对文本中哪些单词或短语可能出现达成一致的预期。<a class="footnote-anchor" data-component-name="FootnoteAnchorToDOM" id="footnote-anchor-3" href="#footnote-3" target="_self">3</a> 语言模型的惊讶感是通过其输出的概率计算的,而人类的惊讶感则是通过阅读时间来衡量的。<a class="footnote-anchor" data-component-name="FootnoteAnchorToDOM" id="footnote-anchor-4" href="#footnote-4" target="_self">4</a> <a href="https://aps.arxiv.org/pdf/2212.12131.pdf">研究结果</a>显示,语言模型系统性地低估了 n
查看原文

相似文章

更好的语言模型及其影响

OpenAI Blog

OpenAI 推出 GPT-2,这是一个拥有 15 亿参数的基于 Transformer 的语言模型,在 40GB 的互联网文本上进行训练,在语言建模基准上达到了最先进的性能,并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑,仅公开发布了较小的模型和技术论文,而非完整的训练模型。

理解大语言模型的能力、限制和社会影响

OpenAI Blog

来自 OpenAI 和斯坦福大学研究人员的全面讨论总结,涵盖 GPT-3 的技术能力、限制以及跨越计算机科学、语言学、哲学和政策等多个学科的更广泛社会影响。

语言模型是小样本学习器

OpenAI Blog

OpenAI 推出了 GPT-3,一个拥有 1750 亿参数的自回归语言模型,它在无需梯度更新或微调的情况下,在多种 NLP 任务上展现出强大的小样本学习能力,代表了语言模型应用范式的转变——仅通过文本交互就能适应新任务。

评估大语言模型在社交媒体分析中的能力:多任务探索

arXiv cs.CL

犹他州立大学和范德堡大学的研究人员对GPT-4、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2与BERT在三大社交媒体任务——作者身份验证、帖子生成与用户属性推断——进行了基准测试,引入新的采样方案与分类体系以减少偏差,打造可复现的评测基准。

通过大型模型的演化

OpenAI Blog

本论文证明了在代码上训练的大型语言模型可以显著增强遗传编程的变异算子,使得能够在 Sodarace 领域中生成数十万个功能性 Python 程序用于机器人设计,且无需预训练数据。该方法称为演化通过大型模型(ELM),将 LLM 与 MAP-Elites 相结合,为上下文特定的制品生成引导新的条件模型。