@omarsar0: // The Efficiency Frontier // 关于上下文管理的有趣论文。随着代理在多次交互中重复使用相同的文档和历史记录……

X AI KOLs Following 论文

摘要

本文介绍了The Efficiency Frontier,一个用于LLM上下文管理成本-性能优化的统一框架,它将上下文策略选择建模为一个部署感知的优化问题,通过摊销内存压缩,与全上下文提示相比,实现了25%的token使用量减少和超过50%的token成本降低。

// The Efficiency Frontier // 关于上下文管理的有趣论文。 随着代理在多次交互中重复使用相同的文档和历史记录,最经济的上下文策略并非固定不变。这项工作描述了一个原则性的规则,用于为每次部署选择策略,而不是默认使用在孤立基准测试中表现最好的策略。 检索和压缩方法几乎总是单独在准确性和成本上进行基准测试,因此你永远无法了解在实际负载下一种方法何时真正优于另一种方法。 The Efficiency Frontier 将上下文策略选择建模为单个成本-性能问题,包含一个对数效用项以反映额外上下文的边际收益递减,以及一个重用参数N,用于在重复查询中分摊预处理成本。 扫描N值,最优策略会发生变化,揭示出检索、压缩或全上下文各自胜出的交叉区域。在5,000个HotpotQA实例上,部署感知的选择在相同性能下将有效token使用量减少了约25%,而在高性能设置中,摊销内存压缩比全上下文提示便宜超过50%。 论文:https://arxiv.org/abs/2605.23071 在我们的学院学习如何构建有效的AI代理:https://academy.dair.ai
查看原文
查看缓存全文

缓存时间: 2026/06/02 01:40

// 效率前沿 //

一篇关于上下文管理的精彩论文。

当智能体在多次交互中重复使用相同的文档和历史记录时,最经济的上下文策略并非固定不变。这项工作描述了一个原则性规则,用于针对特定部署选择策略,而不是默认采用在孤立基准测试中表现最佳的方法。

检索和压缩方法几乎总是根据准确率和成本分别进行基准测试,因此你永远无法了解一种方法在实际负载下何时真正优于另一种方法。

效率前沿将上下文策略选择建模为一个单一的成本-性能问题,包含一个用于描述额外上下文边际效益递减的对数效用项,以及一个重用参数 N(将预处理成本摊销到多次查询中)。

随着 N 的变化,最优策略也会改变,从而揭示出检索、压缩或完整上下文各自胜出的交叉区域。在 5000 个 HotpotQA 实例上,考虑部署因素的选择方法在相同性能下将有效 Token 使用量减少了约 25%,并且在更高性能设置下,摊销内存压缩比完整上下文提示便宜超过 50%。

论文: https://arxiv.org/abs/2605.23071

在我们的学院学习构建有效的 AI 智能体: https://academy.dair.ai


效率前沿:大语言模型上下文管理中成本-性能优化的统一框架

来源: https://arxiv.org/html/2605.23071 BINQI SHEN1†∗, LIER JIN2†, HANYU CAI1, LAN HU3, YUTING XIN4 1西北大学 2杜克大学 3卡内基梅隆大学 4明尼苏达大学 电子邮件: [email protected] [email protected] [email protected] [email protected] [email protected] †同等贡献 ∗通讯作者

摘要

大型语言模型(LLM)越来越依赖长上下文处理,但扩展上下文窗口会带来巨大的计算和财务成本。现有的上下文缩减方法,包括检索和内存压缩方法,通常使用性能和效率指标独立评估,限制了系统比较和部署感知决策。

本文介绍了效率前沿,一个用于LLM上下文管理中成本-性能优化的统一框架。该框架将上下文策略选择建模为一个部署感知的优化问题,通过摊销成本模型共同考虑任务性能、Token成本和预处理重用。与孤立比较方法的现有评估不同,所提出的框架支持面向决策的分析,以了解在不同操作条件下何时不同的上下文管理策略变得可取。在5000个HotpotQA实例上的评估表明,该框架揭示了基于检索和基于预处理的策略之间的不同操作区域和转换边界。结果表明,在可比性能(F1≈0.78)下,部署感知优化将有效Token使用量减少了约25%,而在高性能设置下,摊销内存压缩相对于完整上下文提示实现了超过50%的Token成本降低。总体而言,该框架为评估和部署可扩展、高效且可持续的LLM系统提供了原则性且实用的基础。

I. 引言

大型语言模型(LLM)近年来取得了快速进展,在搜索、客户支持和知识工作等广泛自然语言处理任务中展现出强大能力[1 (https://arxiv.org/html/2605.23071#bib.bib1)]。然而,这些进步伴随着计算和财务成本的增加,这是由模型规模和输入上下文长度的增长共同驱动的[2 (https://arxiv.org/html/2605.23071#bib.bib2)]。随着上下文窗口的不断扩大,处理额外Token的计算成本往往超过下游任务性能的相应提升,这使得高效的上下文利用成为一个日益重要的挑战[3 (https://arxiv.org/html/2605.23071#bib.bib3)]。与此同时,大规模AI系统(包括能源和水消耗)的环境影响引发了对其长期可持续性的日益担忧[4 (https://arxiv.org/html/2605.23071#bib.bib4),5 (https://arxiv.org/html/2605.23071#bib.bib5)]。这些挑战凸显了在LLM系统中更高效使用上下文的必要性。

最近的研究探索了多种在保持任务性能的同时缩短上下文长度的技术,包括基于检索的过滤、摘要和上下文压缩方法[6 (https://arxiv.org/html/2605.23071#bib.bib6),7 (https://arxiv.org/html/2605.23071#bib.bib7)]。这些方法旨在通过选择性地保留最相关的信息,同时丢弃冗余或信息量较低的内容来提高效率[8 (https://arxiv.org/html/2605.23071#bib.bib8)]。尽管这些方法显示出了有希望的结果,但它们的评估仍然是碎片化的。现有研究通常报告诸如精确匹配(EM)或F1分数等性能指标,以及Token使用量或延迟等成本指标[9 (https://arxiv.org/html/2605.23071#bib.bib9)]。然而,这些指标往往被独立考虑,很少提供对成本降低和性能下降之间权衡的统一评估[10 (https://arxiv.org/html/2605.23071#bib.bib10)]。此外,检索、压缩和长上下文方法通常在不同的实验设置下进行评估,使得直接比较变得困难。因此,很难系统地比较不同的上下文缩减策略,或者评估在实际部署约束下何时应该优先选择一种策略而不是另一种[11 (https://arxiv.org/html/2605.23071#bib.bib11)]。

为了解决这一局限性,我们提出了一种统一的评估框架,用于系统地评估大型语言模型中上下文缩减技术的效率。我们引入了效率前沿的概念,这是一个三阶段评估框架,用于表征不同上下文管理策略下任务性能和计算成本之间的权衡。与孤立评估性能和成本的现有方法不同,我们的框架提供了选择上下文管理策略的明确决策逻辑,弥合了基于检索的方法和长上下文处理之间的差距。该框架包含一个参数化的对数效用度量,用于模拟额外上下文的边际效益递减,同时考虑摊销预处理成本。通过改变重用参数((N)),该框架通过识别不同策略变得可取的交叉区域,支持在实际部署约束下的系统比较。

除了评估之外,该框架还为不同成本和重用条件下上下文管理策略选择的研究和实践提供了实用指导,将焦点从最大化上下文容量转向优化真实世界LLM系统中的上下文利用。为了说明所提出的框架,我们在HotpotQA数据集[12 (https://arxiv.org/html/2605.23071#bib.bib12)]上进行了实验,该数据集具有多跳推理的特点,并包含相关和干扰上下文,从而能够统一评估上下文缩减及其对模型准确性的影响。

II. 相关工作

II-A. 大型语言模型的评估

最近针对大型语言模型的评估框架已经扩展到任务准确性之外,纳入了额外维度,如鲁棒性、公平性、泛化能力、计算效率以及对提示条件和交互风格的敏感性。除了任务性能之外,像HELM这样的框架和最近的专业基准测试越来越强调模型行为的多维度评估,特别是关于准确性和执行效率之间的权衡[9 (https://arxiv.org/html/2605.23071#bib.bib9),13 (https://arxiv.org/html/2605.23071#bib.bib13)]。与此同时,关于高效和可持续AI的工作强调了资源感知评估标准的重要性,包括计算成本、能源消耗和延迟[14 (https://arxiv.org/html/2605.23071#bib.bib14)]。例如,绿色AI倡导将效率和资源使用纳入模型评估,因为模型规模和部署成本持续增加[15 (https://arxiv.org/html/2605.23071#bib.bib15)]。除了一般行为和资源使用之外,最近的研究还指出了评估对齐系统适用性的必要性,将其定义为在真实世界扰动下的可靠性[16 (https://arxiv.org/html/2605.23071#bib.bib16)]。这一转变强调了超越静态基准测试,转向在部署条件下可验证鲁棒性的评估框架的必要性。

然而,现有的方法论通常将任务有效性、计算成本和部署效率视为独立变量。这种碎片化掩盖了实际部署中涉及的实用权衡,从业者必须在没有标准化评估标准的情况下平衡任务性能和计算成本[17 (https://arxiv.org/html/2605.23071#bib.bib17),18 (https://arxiv.org/html/2605.23071#bib.bib18)]。许多研究报告了诸如F1或压缩比等性能指标以及基本的成本指标,但很少提供跨不同上下文管理策略的、考虑部署因素的、端到端的每次查询Token或货币成本与任务性能的比较。这种局限性在长上下文设置中变得尤为重要,因为上下文长度的增加可能会显著增加计算成本,而不会带来下游性能的一致改善。最近关于长上下文评估的工作表明,增加上下文或模型复杂性并不一定带来成比例的性能提升[19 (https://arxiv.org/html/2605.23071#bib.bib19)]。

II-B. 上下文长度缩放与边际效益递减

随着长上下文能力的不断扩展,大型语言模型(LLM)的最新进展显著增加了最大上下文长度,使模型能够处理更长的序列并将更多信息纳入推理过程。虽然更长的上下文窗口可以提高需要多跳推理或长距离依赖的任务性能,但经验证据表明,这些收益往往受到边际效益递减的制约[20 (https://arxiv.org/html/2605.23071#bib.bib20)]。

研究表明,LLM并不总是有效地利用长输入序列。“迷失在中间”现象表明,模型倾向于低估位于长序列中间的信息[19 (https://arxiv.org/html/2605.23071#bib.bib19)],而最近的研究报告称,随着上下文长度的增加,由于注意力稀释和干扰物干扰,性能会下降[21 (https://arxiv.org/html/2605.23071#bib.bib21),22 (https://arxiv.org/html/2605.23071#bib.bib22)]。大规模评估进一步表明,模型通常未能充分利用可用的额外上下文[23 (https://arxiv.org/html/2605.23071#bib.bib23)]。

与此同时,由于注意力机制的二次复杂度[24 (https://arxiv.org/html/2605.23071#bib.bib24)],长上下文处理的计算成本随序列长度不成比例地增长,而性能提升通常是次线性或不一致的[19 (https://arxiv.org/html/2605.23071#bib.bib19),25 (https://arxiv.org/html/2605.23071#bib.bib25),26 (https://arxiv.org/html/2605.23071#bib.bib26)]。这些局限性激发了人们对减少或选择性地处理上下文以提高效率同时保持任务性能的方法日益增长的兴趣。然而,现有工作主要侧重于提高长上下文能力或对性能进行基准测试,而不是系统地建模上下文长度、计算成本和下游性能之间的权衡。

II-C. 上下文缩减技术

为了减轻与长上下文处理相关的高计算成本,越来越多的研究探索了在保持任务性能的同时缩短上下文长度的技术。最近的工作提出了各种上下文压缩技术,包括Token级压缩策略和指令驱动的路由机制,这些机制选择性地稀疏化输入Token以减少推理延迟[27 (https://arxiv.org/html/2605.23071#bib.bib27),28 (https://arxiv.org/html/2605.23071#bib.bib28)]。其他研究探索了推理增强适应、指令微调和多模态融合策略,以改善复杂LLM设置中的上下文理解和高效上下文利用[29 (https://arxiv.org/html/2605.23071#bib.bib29),30 (https://arxiv.org/html/2605.23071#bib.bib30),31 (https://arxiv.org/html/2605.23071#bib.bib31)]。这些策略越来越多地被用于实现时间敏感应用的实时部署[32 (https://arxiv.org/html/2605.23071#bib.bib32)]。此外,诸如语义稀疏化和过滤技术等上下文缩减方法旨在在生成之前移除冗余上下文,从而提高效率、鲁棒性和风险感知弹性[33 (https://arxiv.org/html/2605.23071#bib.bib33),34 (https://arxiv.org/html/2605.23071#bib.bib34),35 (https://arxiv.org/html/2605.23071#bib.bib35)]。基于这些想法,还提出了混合检索和路由方法,以进一步提高鲁棒性和上下文选择[36 (https://arxiv.org/html/2605.23071#bib.bib36)]。

现有工作主要孤立地评估检索、压缩和长上下文处理,比较通常在不同的数据集、提示设置或成本假设下进行。因此,很难确定在可比条件下何时一种策略比另一种更高效或更有效。这种标准化评估的缺失使得难以系统地推理跨上下文管理策略的效率-性能权衡,从而激发了对统一评估框架的需求。

III. 方法论

我们提出了一个结构化的三阶段框架,用于系统评估大型语言模型中上下文管理策略的性能与计算成本之间的权衡。与先前孤立优化准确性或效率的方法不同,我们的框架明确建模了部署约束下的决策制定,使得策略选择能够根据性能要求和系统使用模式进行调整。

一个核心贡献是区分了固有成本(每次查询推理成本)和摊销成本(包括可重用的预处理),通过重用参数 (N) 来捕获。这种公式反映了实际的部署场景,例如共享内存系统、缓存摘要和多查询工作负载,在这些场景中,前期计算可以在多次查询中重用。因此,该框架支持在统一的目标内跨异构操作区域进行评估。

III-A. 效率前沿框架

我们将上下文管理建模为一个决策问题:给定关于性能和成本的部署偏好,选择能够最大化效用的策略和配置。

III-A1. 成本模型

我们将计算建模为一个两阶段过程。令 (T_{\text{stage1}}) 表示上下文预处理成本(例如,内存压缩),令 (T_{\text{stage2}}) 表示每次查询推理成本。当上下文预处理在 (N) 次查询中被重用时,

相似文章

@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…

X AI KOLs Following

本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。

为什么每个“上下文层”工具都在谎报token节省量?

Reddit r/AI_Agents

作者批评了新兴的上下文层和MCP优化器工具缺乏透明的基准测试,这些工具承诺大幅节省token,但实际测试却无法复现其声称的效率。他们敦促开发者要求公开、可复现的基准测试,并寻求真正能提供可衡量结果的工具推荐。