让LLM上下文组装变得可编程

Reddit r/AI_Agents 工具

摘要

RAMPART是一个Python库,它使LLM上下文组装变得可编程,允许开发者注册命名的上下文块,并将其放置在模型第一个token之前。通过块聚类和工具访问控制,它在多种模型上将性能提升了数十个百分点。

如今大多数智能体框架都将系统提示视为启动时读取的静态文件。技能、工具和规则被拼接成一个块,在整个会话中保持不变,尽管我们从'Lost in the Middle'的研究中得知,指令在上下文中的位置与其内容同样重要。那么,为什么不让上下文组装本身成为一个显式、可编程的步骤呢?这正是RAMPART所做的。它是一个Python库,将提示构建步骤转化为一个注册命名块的体系,在模型的第一个token之前以零提示token成本运行。现有的SKILL.md和CLAUDE.md文件无需修改即可导入。部署完全在RAM中进行,无需数据库,延迟上限为一次方法调用。编译时放置以及块与任务查询之间的结构关系都会影响任务成功率;将关键块与内容相邻的块分组,能在单块放置失败的情况下将性能提升数十个百分点。这一模式在来自三个实验室的五种模型上得到了复现。在最难的注册规模下,块聚类使Mistral-7B的平均通过率提高了大约五倍,并且在中等注册规模区域,经过干预的较小模型表现优于未干预的较大模型。通过模式驱逐实现工具访问控制在这里非常明显,模型从未看到被移除的内容,无需策略指令。此外,还涌现出一些有趣的可能性,即在多个智能体之间进行零token协调。
查看原文

相似文章

仅靠基准测试不够:RAMP——生产系统中代理模型的运行时评估

Hugging Face Daily Papers

RAMP是一个基于生产环境的LLM代理评估框架,可揭示静态基准测试无法察觉的显著能力退化,显示任务完成率在串行工作流中从100%骤降至20%。该框架在真实的编译器构建工作负载上评估了15个主流模型,涉及复杂的工具链交互和分阶段恢复机制。