LLMs与记忆限制——请审阅我的想法
摘要
本文分析了LLM记忆限制,认为真正的个人AI需要单租户权重定制,这与当前多租户云经济模式相冲突,并指出开源权重模型可能是进步的关键来源。
关于LLM“记忆”最有趣的一点是,没有人真正实现它。我因为一个简单的直觉而深入探索:如果你在本地运行LLM并拥有完整的权重访问权限,难道不能比大家常说的服务端技巧(KV cache、batching)优化得更好吗?结果发现,我搞错了方向。真正的关键在于吞吐量与延迟之间的权衡。服务端优化之所以存在,是因为单个GPU需要同时服务数千用户——批量处理(batching)是降低推理成本的关键。本地运行时你放弃了这一点,但获得了延迟控制、隐私和定制能力。这引出了更好的问题:如何让模型真正了解你?我的第一反应是“微调它”。过了一会儿我才明白为什么这是反的。我得到的结论是:→ 微调用于决定如何回应。检索用于决定知道什么。权重适合存储语气、格式和行为——但不适合存储可编辑的事实。你的个人背景(笔记、决策、历史)应属于检索系统,而非嵌入参数。但让我印象最深的是这一点。将其映射到大脑上:模型权重 ≈ 新皮层——缓慢、通用、稳定;上下文窗口 ≈ 工作记忆——快速、微小、易失;缺失的部分 ≈ 海马体——捕捉特定经历并随时间将其整合为长期知识的部分。这个整合步骤才是关键,它指向一个容易忽略的事实:大脑是单租户的。一个模型对应一个用户,权重默认是个人化的。每个夜晚,你的经历被写回自己的参数中——由于没有人与你共享新皮层,用你的特定历史更新它不产生任何成本。对于机器来说,中间层仍然是一个开放的研究问题。快速权重(Ba et al., 2016)和测试时训练层(Sun et al., 2024)是最接近的尝试。难点从不在于想法本身——而是灾难性遗忘,以及决定什么值得记忆。而最关键的是——为什么还没有普及?因为云服务完全相反于单租户。整个经济模型是一个基础模型被数千用户共享,这只有在他们共享相同权重时才成立。定制权重恰恰是批量处理无法容忍的——一旦每个用户需要自己的权重,你就得为每个请求加载一个全新的多GB模型,经济效益瞬间崩溃。行业的折中方案是LoRA适配器:保留一个共享的基础模型,给每个用户一个微小的权重增量(S-LoRA可以同时服务数千个这样的增量)。这很聪明——但它只是针对生物学中从未存在的约束而设计的变通方案。大脑不会为了节省服务预算而限制权重更新。因此,真正个人化AI记忆的前沿可能不会来自大型API实验室——他们的经济模式与之相悖。它更可能来自开源权重社区(DeepSeek、Mistral、Meta的Llama、AI2等):他们提供你可以真正拥有并针对个人修改的权重,而且他们并不维护多租户服务的护城河。
相似文章
LLM架构的最新发展:KV共享、mHC与压缩注意力 [P]
Sebastian Raschka回顾了LLM架构中针对长上下文效率的最新创新,包括KV共享、压缩卷积注意力和来自Gemma 4、ZAYA1、Laguna XS.2和DeepSeek V4等模型的逐层注意力预算。
无需GPU的LLMs个人持续学习——立场论文[OC]
作者提出了两种架构,即内部KV-Sphere架构(IKSA)和背景微调(BMFT),使得LLMs能够从个人互动中持续学习,无需GPU且无灾难性遗忘。
内存
解释了为什么由于KV缓存随上下文长度和并发用户数扩展,LLM推理越来越受内存带宽限制,以及像vLLM和PagedAttention这样的系统如何提高内存利用率。
受人类启发的LLM智能体记忆架构
微软研究人员提出了一种受生物学启发的LLM智能体记忆架构,该架构结合了睡眠阶段巩固和基于干扰的遗忘机制,以高效管理持久性记忆。
大语言模型与本地AI硬件的推理引擎(2026版)
本文提供了一份全面的指南,针对2026年本地AI硬件上的大语言模型推理引擎,解释了如何根据硬件策略、工作负载和服务模型进行选择,并涵盖了诸如llama.cpp、MLX、ExLlamaV2/3、vLLM、SGLang、TensorRT-LLM和NVIDIA Dynamo等引擎。