可能是个愚蠢的问题,但如何为多个用户提供完整的上下文长度?

Reddit r/LocalLLaMA 工具

摘要

用户询问llama.cpp如何为每个用户提供完整的上下文长度,并指出它似乎只是共享上下文池,而不是为每个用户提供专用上下文。

在尝试了llama.cpp之后,我想到一个问题。假设我们有一个上下文大小为128k的LLM。再假设我们想要最多8个并行用户,并且希望为**每个**客户端提供完整的上下文能力。那么用llama.cpp,这是如何实现的?据我所知,它只允许用户之间*共享*128k,而不是真正为每个用户提供128k_的_上下文。我是不是漏掉了什么?谢谢
查看原文

相似文章

如何防止长对话耗尽整个上下文窗口?

Reddit r/openclaw

一位用户分享了一个自定义的插件SDK钩子,该钩子逐渐压缩较早的轮次,同时保留最近的轮次不压缩,以防止在长时间OpenClaw会话中上下文窗口耗尽,将重新发送的上下文减少了80%。

本地压缩的助益

Reddit r/AI_Agents

一位用户分享了一个技巧:在代理工作流程中使用 Ollama 本地的 llama3.1:8b 模型压缩对话上下文,相较于将上下文发送给提供商,能降低延迟并减少 token 使用量。