LLMs 现在变得复杂了

Hacker News Top 2026/06/20 01:25 新闻

llm-architecture complexity mixture-of-experts attention-variants flexattention composability

摘要

文章讨论了LLMs如何变得越来越复杂，从简单的Transformer堆栈演变为融入多种注意力变体、混合专家模型和多模态编码器，与推荐系统进行了类比，并强调了像FlexAttention这样可组合内核优化的必要性。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:25

# LLM现在变得复杂了来源: https://ianbarber.blog/2026/06/19/llms-are-complicated-now/ 回顾2022年和2023年，Meta公司有两个主要的机器学习分支在并行发展（[1]）(https://ianbarber.blog/2026/06/19/llms-are-complicated-now/#2c91a856-5a90-414f-bc85-26d82760c71d)\. 诞生Llama的LLM工作是一个简洁流畅的重复Transformer模块堆栈；相比之下，推荐系统的计算图则令人望而生畏。幸运的是，业界通过让LLM变得更加复杂，改变了这种状况。 Seb Raschka维护着一个优秀的[模型架构图库](https://sebastianraschka.com/llm-architecture-gallery/)，你可以用它来对比两个各自时代最优秀的开源模型：Llama 3和Nemotron 3 Ultra。或许注意力机制就是你所需要的一切，但现代模型肯定使用了多种不同的注意力变体：查询分组、压缩注意力、稀疏注意力、线性注意力、滑动窗口注意力等等。混合专家模型为前馈层引入了选择性路由，此后我们开始对几乎所有其他组件进行路由，从注意力块到残差流。视觉和音频编码器从外挂式变成了内嵌式，模型规模扩展到推理时跨多GPU运行，这引入了通信操作，在模型中间增加了额外的边界。这与推荐系统领域发生的情况并无太大不同。近十年来，推荐系统的基本架构是一个相对简单的双塔稀疏神经网络。其复杂性来自于不断增强能力的需求与保持效率（尤其是推理效率）之间的张力。人们很容易认为智能体将解决这个问题：你把你的PyTorch或JAX定义交给Claude Telenovela或类似的系统，让它为你生成最优化的融合内核（[2]）(https://ianbarber.blog/2026/06/19/llms-are-complicated-now/#b106a18d-98b3-4821-a60f-d77f1269ad3b)\. 但要做到这一点，你需要一个固定且可用的基线，以确保生成的内容是……正确的。推荐系统领域发生的情况是，性能从一种*优化*变成了一种*必需品*，两者之间的差距变得非常非常小。概念上，你可以保留一个纯粹模型定义作为基线；但实际上，训练和测试一个模型需要大量资源，性能提升变得至关重要。如果你想将注意力变体`A`替换为变体`B`，你可以接受`B`慢10%。但你可能无法接受它差一个数量级。如果`A`是经过融合和优化的，那么你至少需要一个*部分*融合和优化的`B`版本，才能判断它是否值得探索。研究迭代循环需要一种不同于“只需优化这个已知量”的灵活性。你不可能在不投入大量（可能不值得）时间的情况下手动进行融合优化，也不可能在没有基线检查的情况下自动生成前进的方案。唯一的出路是在设计之初就考虑可组合性。过去几年中，我最喜欢的核函数发展之一是PyTorch中的[FlexAttention](https://pytorch.org/blog/flexattention/)，它涵盖了整类注意力操作，允许你通过Triton模板为它们生成核函数。它建立在大量注意力核函数工作的基础上，并且从一开始就设计为可组合和可验证：你可以在对性能影响非常小的情况下进行探索。 Andrej Karpathy最近加入了Anthropic，部分原因是为了在前沿领域开发更丰富的自动化研究循环。然而，正如他在过去几年中所展示的那样，能够将架构精简到本质并使其可组合，与巧妙的智能体设置同样重要，是攀登这座高峰的关键。 1. 以及许多较小的公司，向所有内容理解和完整性领域的朋友们致敬↩︎ (https://ianbarber.blog/2026/06/19/llms-are-complicated-now/#2c91a856-5a90-414f-bc85-26d82760c71d-link) 2. 类似于自动化的[Hazy Research](https://github.com/HazyResearch/Megakernels)↩︎ (https://ianbarber.blog/2026/06/19/llms-are-complicated-now/#b106a18d-98b3-4821-a60f-d77f1269ad3b-link)

LLMs 现在变得复杂了

相似文章

LLM架构的最新发展：KV共享、mHC与压缩注意力 [P]

大型语言模型是如何工作的（26分钟阅读）

大语言模型实际工作原理

LLMs 并非你所认为的黑箱

@techNmak: 这是学习LLM工作原理的最佳方式。交互式3D，逐步讲解。涵盖：→ 嵌入 → 层归一化 → 自注意力…

提交意见反馈