标签
文章讨论了LLMs如何变得越来越复杂,从简单的Transformer堆栈演变为融入多种注意力变体、混合专家模型和多模态编码器,与推荐系统进行了类比,并强调了像FlexAttention这样可组合内核优化的必要性。
一位斯坦福教授举办了一场公开讲座,全面剖析了GPT、Claude和LLaMA等现代LLM的底层构建方式,让大众也能了解先进的架构。
一条推文批评了当前LLM架构因依赖顺序的上下文而导致浪费的重计算,并提出将上下文单元分开编码,以实现与顺序无关的高效缓存和生成。
本文提供了关于现代大型语言模型(如ChatGPT和Claude)从零开始构建的全面逐步解析,涵盖了数据收集、分词、Transformer架构、训练、对齐和部署。
The article shares a personal experience using Cursor and Opus 4.7 to generate videos, highlighting the agent's rigorous self-correction process. It then transitions into a technical discussion on 'Agent = Model + Harness,' arguing that engineering systems like ratchets and context management are more critical to AI agent performance than the underlying model alone.
作者描述了如何通过将单个通用智能体替换为专注于接入、调研、执行和审查的四智能体工作流,来提高 AI 智能体的可靠性。这种转变优先考虑系统的可预测性和更轻松的调试,而非纯粹的自主性。
本文介绍了 TIDE,一种通过嵌入记忆(Embedding Memory)将令牌身份注入每一层,从而解决大语言模型(LLM)中罕见令牌问题和上下文崩溃问题的方法。作者在理论上和经验上证明了该方法在语言建模和下游任务中的改进。
一条社交媒体帖子讨论了直接将RoPE旋转应用于KV缓存的技术含义,指出这会泄露位置信息到值矩阵V。
这个交互式工具通过数据流图可视化 Transformer 模型的数学基础,涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。
StageMem 提出了一种面向语言模型的生命周期管理记忆框架,该框架将记忆划分为瞬态、工作状态和持久状态三个阶段,并引入明确的置信度与强度指标,将记忆视为一种有状态的处理流程而非静态存储,从而在容量受限的条件下更精准地管理信息的保留与遗忘。
斯坦福大学提供一场时长1.5小时的讲座,全面涵盖大语言模型的基础概念与设计原则。
Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。