LLMs与记忆限制——请审阅我的想法

Reddit r/ArtificialInteligence 2026/05/29 10:17 新闻

llm memory fine-tuning retrieval open-source personalization inference

摘要

本文分析了LLM记忆限制，认为真正的个人AI需要单租户权重定制，这与当前多租户云经济模式相冲突，并指出开源权重模型可能是进步的关键来源。

关于LLM“记忆”最有趣的一点是，没有人真正实现它。我因为一个简单的直觉而深入探索：如果你在本地运行LLM并拥有完整的权重访问权限，难道不能比大家常说的服务端技巧（KV cache、batching）优化得更好吗？结果发现，我搞错了方向。真正的关键在于吞吐量与延迟之间的权衡。服务端优化之所以存在，是因为单个GPU需要同时服务数千用户——批量处理（batching）是降低推理成本的关键。本地运行时你放弃了这一点，但获得了延迟控制、隐私和定制能力。这引出了更好的问题：如何让模型真正了解你？我的第一反应是“微调它”。过了一会儿我才明白为什么这是反的。我得到的结论是：→ 微调用于决定如何回应。检索用于决定知道什么。权重适合存储语气、格式和行为——但不适合存储可编辑的事实。你的个人背景（笔记、决策、历史）应属于检索系统，而非嵌入参数。但让我印象最深的是这一点。将其映射到大脑上：模型权重 ≈ 新皮层——缓慢、通用、稳定；上下文窗口 ≈ 工作记忆——快速、微小、易失；缺失的部分 ≈ 海马体——捕捉特定经历并随时间将其整合为长期知识的部分。这个整合步骤才是关键，它指向一个容易忽略的事实：大脑是单租户的。一个模型对应一个用户，权重默认是个人化的。每个夜晚，你的经历被写回自己的参数中——由于没有人与你共享新皮层，用你的特定历史更新它不产生任何成本。对于机器来说，中间层仍然是一个开放的研究问题。快速权重（Ba et al., 2016）和测试时训练层（Sun et al., 2024）是最接近的尝试。难点从不在于想法本身——而是灾难性遗忘，以及决定什么值得记忆。而最关键的是——为什么还没有普及？因为云服务完全相反于单租户。整个经济模型是一个基础模型被数千用户共享，这只有在他们共享相同权重时才成立。定制权重恰恰是批量处理无法容忍的——一旦每个用户需要自己的权重，你就得为每个请求加载一个全新的多GB模型，经济效益瞬间崩溃。行业的折中方案是LoRA适配器：保留一个共享的基础模型，给每个用户一个微小的权重增量（S-LoRA可以同时服务数千个这样的增量）。这很聪明——但它只是针对生物学中从未存在的约束而设计的变通方案。大脑不会为了节省服务预算而限制权重更新。因此，真正个人化AI记忆的前沿可能不会来自大型API实验室——他们的经济模式与之相悖。它更可能来自开源权重社区（DeepSeek、Mistral、Meta的Llama、AI2等）：他们提供你可以真正拥有并针对个人修改的权重，而且他们并不维护多租户服务的护城河。

查看原文

LLMs与记忆限制——请审阅我的想法

相似文章

当前LLM成本为何不可持续

本地LLM vs AI API：值得吗？值得。

大语言模型能泄露训练数据，但它们愿意吗？对LLM记忆的倾向性感知评估

为什么不能训练LLMs用一种优化的AI语言而非英语来思考？

LLM架构的最新发展：KV共享、mHC与压缩注意力 [P]

提交意见反馈