可能是个愚蠢的问题，但如何为多个用户提供完整的上下文长度？

Reddit r/LocalLLaMA 2026/06/15 19:59 工具

llm serving context-length llama-cpp concurrency

摘要

用户询问llama.cpp如何为每个用户提供完整的上下文长度，并指出它似乎只是共享上下文池，而不是为每个用户提供专用上下文。

在尝试了llama.cpp之后，我想到一个问题。假设我们有一个上下文大小为128k的LLM。再假设我们想要最多8个并行用户，并且希望为**每个**客户端提供完整的上下文能力。那么用llama.cpp，这是如何实现的？据我所知，它只允许用户之间*共享*128k，而不是真正为每个用户提供128k_的_上下文。我是不是漏掉了什么？谢谢

查看原文

相似文章

寻找关于 llama.cpp 服务器及模型卸载工作原理的阅读资源

Reddit r/LocalLLaMA

一位用户分享了他们使用 llama.cpp 服务器进行模型卸载的经验，指出了性能权衡和安静运行的优势，并询问了解该工具如何在 VRAM 和系统 RAM 之间管理内存的阅读资源。

如何防止长对话耗尽整个上下文窗口？

Reddit r/openclaw

一位用户分享了一个自定义的插件SDK钩子，该钩子逐渐压缩较早的轮次，同时保留最近的轮次不压缩，以防止在长时间OpenClaw会话中上下文窗口耗尽，将重新发送的上下文减少了80%。

本地压缩的助益

Reddit r/AI_Agents

一位用户分享了一个技巧：在代理工作流程中使用 Ollama 本地的 llama3.1:8b 模型压缩对话上下文，相较于将上下文发送给提供商，能降低延迟并减少 token 使用量。

@ickma2311: 高效AI讲座15：长上下文LLM 长上下文不仅仅是更大的提示窗口。关键问题是：哪些过…

X AI KOLs Timeline

本文总结了关于长上下文LLM的高效AI讲座15，涵盖用于上下文扩展的RoPE位置插值、大海捞针评估，以及StreamingLLM的注意力汇聚现象和KV缓存驱逐策略。

@MaximeRivest: 当前的LLM架构很蠢（如果不算蠢，至少也是浪费）。以下三个包含4个上下文块的提示词：…

X AI KOLs Following

一条推文批评了当前LLM架构因依赖顺序的上下文而导致浪费的重计算，并提出将上下文单元分开编码，以实现与顺序无关的高效缓存和生成。

提交意见反馈