LLMs 现在变得复杂了

Hacker News Top 新闻

摘要

文章讨论了LLMs如何变得越来越复杂,从简单的Transformer堆栈演变为融入多种注意力变体、混合专家模型和多模态编码器,与推荐系统进行了类比,并强调了像FlexAttention这样可组合内核优化的必要性。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:25

# LLM现在变得复杂了 来源: https://ianbarber.blog/2026/06/19/llms-are-complicated-now/ 回顾2022年和2023年,Meta公司有两个主要的机器学习分支在并行发展([1])(https://ianbarber.blog/2026/06/19/llms-are-complicated-now/#2c91a856-5a90-414f-bc85-26d82760c71d)\. 诞生Llama的LLM工作是一个简洁流畅的重复Transformer模块堆栈;相比之下,推荐系统的计算图则令人望而生畏。幸运的是,业界通过让LLM变得更加复杂,改变了这种状况。 Seb Raschka维护着一个优秀的[模型架构图库](https://sebastianraschka.com/llm-architecture-gallery/),你可以用它来对比两个各自时代最优秀的开源模型:Llama 3和Nemotron 3 Ultra。 或许注意力机制就是你所需要的一切,但现代模型肯定使用了多种不同的注意力变体:查询分组、压缩注意力、稀疏注意力、线性注意力、滑动窗口注意力等等。混合专家模型为前馈层引入了选择性路由,此后我们开始对几乎所有其他组件进行路由,从注意力块到残差流。视觉和音频编码器从外挂式变成了内嵌式,模型规模扩展到推理时跨多GPU运行,这引入了通信操作,在模型中间增加了额外的边界。 这与推荐系统领域发生的情况并无太大不同。近十年来,推荐系统的基本架构是一个相对简单的双塔稀疏神经网络。其复杂性来自于不断增强能力的需求与保持效率(尤其是推理效率)之间的张力。 人们很容易认为智能体将解决这个问题:你把你的PyTorch或JAX定义交给Claude Telenovela或类似的系统,让它为你生成最优化的融合内核([2])(https://ianbarber.blog/2026/06/19/llms-are-complicated-now/#b106a18d-98b3-4821-a60f-d77f1269ad3b)\. 但要做到这一点,你需要一个固定且可用的基线,以确保生成的内容是……正确的。 推荐系统领域发生的情况是,性能从一种*优化*变成了一种*必需品*,两者之间的差距变得非常非常小。概念上,你可以保留一个纯粹模型定义作为基线;但实际上,训练和测试一个模型需要大量资源,性能提升变得至关重要。 如果你想将注意力变体`A`替换为变体`B`,你可以接受`B`慢10%。但你可能无法接受它差一个数量级。如果`A`是经过融合和优化的,那么你至少需要一个*部分*融合和优化的`B`版本,才能判断它是否值得探索。研究迭代循环需要一种不同于“只需优化这个已知量”的灵活性。你不可能在不投入大量(可能不值得)时间的情况下手动进行融合优化,也不可能在没有基线检查的情况下自动生成前进的方案。唯一的出路是在设计之初就考虑可组合性。 过去几年中,我最喜欢的核函数发展之一是PyTorch中的[FlexAttention](https://pytorch.org/blog/flexattention/),它涵盖了整类注意力操作,允许你通过Triton模板为它们生成核函数。它建立在大量注意力核函数工作的基础上,并且从一开始就设计为可组合和可验证:你可以在对性能影响非常小的情况下进行探索。 Andrej Karpathy最近加入了Anthropic,部分原因是为了在前沿领域开发更丰富的自动化研究循环。然而,正如他在过去几年中所展示的那样,能够将架构精简到本质并使其可组合,与巧妙的智能体设置同样重要,是攀登这座高峰的关键。 1. 以及许多较小的公司,向所有内容理解和完整性领域的朋友们致敬↩︎ (https://ianbarber.blog/2026/06/19/llms-are-complicated-now/#2c91a856-5a90-414f-bc85-26d82760c71d-link) 2. 类似于自动化的[Hazy Research](https://github.com/HazyResearch/Megakernels)↩︎ (https://ianbarber.blog/2026/06/19/llms-are-complicated-now/#b106a18d-98b3-4821-a60f-d77f1269ad3b-link)

相似文章

大语言模型实际工作原理

Lobsters Hottest

深入剖析现代大语言模型的工作原理,涵盖从分词到下一个词预测的核心机制,无需复杂数学知识。

LLMs 并非你所认为的黑箱

Hacker News Top

一篇总结 Anthropic 2025 年关于机制可解释性论文的文章,表明 LLM 并非黑箱,电路追踪可以揭示多步推理和人类可识别的概念。