可能是个愚蠢的问题,但如何为多个用户提供完整的上下文长度?
摘要
用户询问llama.cpp如何为每个用户提供完整的上下文长度,并指出它似乎只是共享上下文池,而不是为每个用户提供专用上下文。
在尝试了llama.cpp之后,我想到一个问题。假设我们有一个上下文大小为128k的LLM。再假设我们想要最多8个并行用户,并且希望为**每个**客户端提供完整的上下文能力。那么用llama.cpp,这是如何实现的?据我所知,它只允许用户之间*共享*128k,而不是真正为每个用户提供128k_的_上下文。我是不是漏掉了什么?谢谢
相似文章
寻找关于 llama.cpp 服务器及模型卸载工作原理的阅读资源
一位用户分享了他们使用 llama.cpp 服务器进行模型卸载的经验,指出了性能权衡和安静运行的优势,并询问了解该工具如何在 VRAM 和系统 RAM 之间管理内存的阅读资源。
如何防止长对话耗尽整个上下文窗口?
一位用户分享了一个自定义的插件SDK钩子,该钩子逐渐压缩较早的轮次,同时保留最近的轮次不压缩,以防止在长时间OpenClaw会话中上下文窗口耗尽,将重新发送的上下文减少了80%。
本地压缩的助益
一位用户分享了一个技巧:在代理工作流程中使用 Ollama 本地的 llama3.1:8b 模型压缩对话上下文,相较于将上下文发送给提供商,能降低延迟并减少 token 使用量。
@ickma2311: 高效AI讲座15:长上下文LLM 长上下文不仅仅是更大的提示窗口。关键问题是:哪些过…
本文总结了关于长上下文LLM的高效AI讲座15,涵盖用于上下文扩展的RoPE位置插值、大海捞针评估,以及StreamingLLM的注意力汇聚现象和KV缓存驱逐策略。
@MaximeRivest: 当前的LLM架构很蠢(如果不算蠢,至少也是浪费)。以下三个包含4个上下文块的提示词:…
一条推文批评了当前LLM架构因依赖顺序的上下文而导致浪费的重计算,并提出将上下文单元分开编码,以实现与顺序无关的高效缓存和生成。