更大的上下文窗口并未解决企业记忆问题——原因如下
摘要
本文批评了LLM中不断扩大上下文窗口的趋势,认为由于检索退化、数据量和缺乏结构,这并不能解决企业知识问题。文章主张在检索之前建立知识建模层,以映射关系和意图。
每隔几个月就会有关于扩展上下文的新公告:128K、200K、100万tokens,其隐含的承诺是,你最终可以将整个公司的知识塞进上下文并获得完美的答案。然而,即使在非常大的上下文长度下,这并不能像人们预期的那样工作。原因如下。
问题1:检索质量随上下文长度下降。有确凿证据表明,与开头或结尾附近的信息相比,LLM从非常长的上下文中间可靠使用信息的能力会下降,这就是中间丢失问题。加倍上下文窗口并不能加倍可靠的工作记忆。
问题2:企业数据无法放入上下文窗口。一家中型公司的重要运营数据、合同、电子邮件、会议记录、内部政策很容易达到数百GB。即使上下文无限,你仍然面临选择问题:哪些tokens实际上与本次查询相关?
问题3:原始文档是错误的表示。即使你能把所有内容都放入上下文,一个扁平的文档转储也无法编码使机构知识有用的关系和时间结构。对于大多数查询来说,2024年的合同修正案比2019年的基准更重要,但同样,如果没有明确的元数据,模型无法知道这一点。扩展上下文窗口无法解决核心问题。关键在于如何在检索之前就对知识进行建模。企业信息需要首先通过关系、意图和来源路径进行映射,这样模型接收到的信息已经是围绕意义和决策进行结构化处理的,而不是原始的文本块。
你可以在一些较新的知识层平台的定位中看到这一点:像60x、Glean或Kagi的内部搜索这样的工具,与其说它们像巨大的草稿本,不如说它们更像是对公司内部知识进行建模和路由的基础设施。它们底层仍然使用RAG和长上下文模型,但重点在于构建一个关于组织知道什么、信息在哪里、以及当信息冲突时哪个版本应该胜出的图表或模式。当你深入研究企业AI系统时,你会越发觉得真正的竞争发生在模型层之下。更大的窗口在边际上有帮助,但它们不能替代知识层。
相似文章
更大的上下文窗口似乎在解决与理解不同的问题
Repowise 是一个开源工具,它将代码库索引为五个智能层——依赖图、Git 历史、自动生成的文档、架构决策和代码健康——并通过 MCP 工具将这些信息暴露给 AI 编码代理,以提供更准确的上下文并减少工具调用次数。
内存
解释了为什么由于KV缓存随上下文长度和并发用户数扩展,LLM推理越来越受内存带宽限制,以及像vLLM和PagedAttention这样的系统如何提高内存利用率。
热门观点:上下文窗口正在成为一种干扰。
这是一个热门观点,认为上下文窗口分散了对AI记忆真正问题的注意力,这个问题仍未解决,并导致忘记上下文和重复错误信息。
企业系统是否需要学习世界模型?上下文在推断动态性中的重要性
本文探讨了企业代理是否需要学习世界模型,或者是否可以依赖运行时对系统配置的发现。文章引入了“企业发现代理”以及名为 CascadeBench 的基准测试,证明在动态企业环境中,读取运行时上下文能带来对部署偏移更好的鲁棒性。
@ickma2311: 高效AI讲座15:长上下文LLM 长上下文不仅仅是更大的提示窗口。关键问题是:哪些过…
本文总结了关于长上下文LLM的高效AI讲座15,涵盖用于上下文扩展的RoPE位置插值、大海捞针评估,以及StreamingLLM的注意力汇聚现象和KV缓存驱逐策略。