让LLM上下文组装变得可编程
摘要
RAMPART是一个Python库,它使LLM上下文组装变得可编程,允许开发者注册命名的上下文块,并将其放置在模型第一个token之前。通过块聚类和工具访问控制,它在多种模型上将性能提升了数十个百分点。
如今大多数智能体框架都将系统提示视为启动时读取的静态文件。技能、工具和规则被拼接成一个块,在整个会话中保持不变,尽管我们从'Lost in the Middle'的研究中得知,指令在上下文中的位置与其内容同样重要。那么,为什么不让上下文组装本身成为一个显式、可编程的步骤呢?这正是RAMPART所做的。它是一个Python库,将提示构建步骤转化为一个注册命名块的体系,在模型的第一个token之前以零提示token成本运行。现有的SKILL.md和CLAUDE.md文件无需修改即可导入。部署完全在RAM中进行,无需数据库,延迟上限为一次方法调用。编译时放置以及块与任务查询之间的结构关系都会影响任务成功率;将关键块与内容相邻的块分组,能在单块放置失败的情况下将性能提升数十个百分点。这一模式在来自三个实验室的五种模型上得到了复现。在最难的注册规模下,块聚类使Mistral-7B的平均通过率提高了大约五倍,并且在中等注册规模区域,经过干预的较小模型表现优于未干预的较大模型。通过模式驱逐实现工具访问控制在这里非常明显,模型从未看到被移除的内容,无需策略指令。此外,还涌现出一些有趣的可能性,即在多个智能体之间进行零token协调。
相似文章
RAMPART:基于注册表的智能体记忆系统,具备优先级感知的运行时转换能力
RAMPART 是一种面向基于 LLM 的智能体的编译期内存模型和纯内存块注册表,通过五种可组合的原语管理上下文组装,支持优先级排序与淘汰策略。在多个 7B 至 14B 参数规模模型上的实验表明,块分组、相关性门控和模式淘汰能够显著提升任务成功率并降低提示词 token 开销。
仅靠基准测试不够:RAMP——生产系统中代理模型的运行时评估
RAMP是一个基于生产环境的LLM代理评估框架,可揭示静态基准测试无法察觉的显著能力退化,显示任务完成率在串行工作流中从100%骤降至20%。该框架在真实的编译器构建工作负载上评估了15个主流模型,涉及复杂的工具链交互和分阶段恢复机制。
@samhogan:顺便提一句,RLM 基本已解决上下文问题。你只需将上千万个 token 投入一个成熟的 RLM 框架中,它就能直接跑通……
一位开发者分享了使用 RLM 的实践经验,表示其能够有效承载高达数千万 token 的超长上下文窗口,这标志着上下文处理能力实现了显著跨越。
@MaximeRivest: 当前的LLM架构很蠢(如果不算蠢,至少也是浪费)。以下三个包含4个上下文块的提示词:…
一条推文批评了当前LLM架构因依赖顺序的上下文而导致浪费的重计算,并提出将上下文单元分开编码,以实现与顺序无关的高效缓存和生成。
我构建了一个开源编码代理,让上下文可见且可编辑 — 你可以精确策划大语言模型所看到的内容
作者构建了 Nice Coding Agent,这是一个开源编码工作台,具有可见且可编辑的上下文堆栈,允许用户精确策划大语言模型所看到的内容。它具备本地优先检索、沙盒执行和混合代码搜索功能,旨在让开发者对上下文组装拥有控制和可见性。