面向上下文LLM级联的在线Pandora's Box

arXiv cs.AI 2026/06/08 04:00 论文

llm-cascading pandoras-box contextual-bandits online-learning api-selection regret-analysis

摘要

本文介绍了一种面向自适应查询和选择LLM API的在线上下文Pandora's Box模型，提出了一种结合GMM估计与UCB风格置信区间的学习方法，并证明了维度相关的遗憾界。

arXiv:2606.07392v1 公告类型：新摘要：受大语言模型（LLM）级联的启发，我们提出了一种面向自适应查询和选择LLM API的在线上下文Pandora's Box模型。在每个周期中，决策者观察到请求上下文，并面临一个两阶段决策问题。在查询阶段，决策者依次查询API，每次查询会显示生成的输出，决策者产生（输出相关的）成本。在选择阶段，决策者选择其中一个生成的输出进行部署，并仅观察部署输出的下游奖励。这种以输出为中介的反馈结构不同于经典的在线上下文Pandora's Box模型——在经典模型中，打开盒子直接揭示其奖励。我们并不估计每个API的完整条件输出和成本分布，而是直接对保留指数建模，并为查询阶段开发学习方法。具体而言，我们对由经典Weitzman策略导出的上下文保留指数函数施加参数化结构。我们的策略将这些保留指数的广义矩估计（GMM）方法与针对这些指数及共享输出级奖励评估器的UCB风格置信区间相结合。在正则性条件下，我们证明了所得到的策略在T个周期的时间范围内实现了维度相关的$\widetilde O(\sqrt T)$累积遗憾。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:15

# 1  引言

**来源：** [https://arxiv.org/html/2606.07392](https://arxiv.org/html/2606.07392)

在大语言模型（LLM）级联的驱动下，我们提出了一种用于自适应查询和选择LLM API的在线情境化潘多拉魔盒模型。在每个时期，决策者都会观察到一个请求情境，并面临一个两阶段的决策问题。在查询阶段，决策者顺序查询API，每次查询都会揭示一个生成的输出，并且决策者会产生一个（与输出相关的）成本。在选择阶段，决策者选择其中一个生成的输出进行部署，并且只能观测到被部署输出的下游奖励。这种输出中介的反馈结构，与经典的在线情境化潘多拉魔盒模型不同，后者打开盒子会直接揭示其奖励。

我们并非去估计每个API的完整条件输出和成本分布，而是直接对保留指数进行建模，并为查询阶段开发一种学习方法。具体而言，我们在经典的Weitzman策略所引出的情境化保留指数函数上施加了一个参数化结构。我们的策略将对这些保留指数的广义矩估计法（GMM）类型估计，与针对这些指数以及共享输出级奖励评估器的UCB式置信界相结合。在正则性条件下，我们证明了所得策略在\(T\)个周期的时间跨度上实现了与维度相关的\(\widetilde{O}(\sqrt{T})\)累积遗憾。

大语言模型（LLM）的普及已经改变了内容生成和决策支持的经济学。企业越来越多地使用生成式AI系统来生成广告、编写代码、服务客户请求以及执行复杂的分析任务。在这些应用中，操作上的挑战通常不在于能否生成内容，而在于如何在大规模应用中可靠且经济高效地生成高质量内容。例如，一家每天生成大量广告的公司，可能拥有一个由多个LLM API组成的组合，这些API在不同任务类型上的成本和输出质量各不相同。通常，能力更强的专有模型可以生成更高质量的输出，但会产生更高的成本，而较小或专门化的模型则更便宜但可靠性较低。由于模型性能因请求情境而异，且难以事先预测输出的质量，因此承诺只使用单个API通常并非最优方案。同样，查询所有可用的API通常成本过高，难以承受。

我们从使用外部或内部LLM API来服务业务请求流的组织的角度来研究这个问题。在此类应用中，请求作为独立的决策单元到达，没有严格的延迟要求，这使得决策者可以在选择最终输出之前查询多个API。值得注意的是，这种请求级别的决策问题与大型LLM平台面临的模型托管问题有着根本的不同，后者主要的操作挑战是通过批处理、调度和负载管理来减少延迟（例如，Yuet al.2022 [https://arxiv.org/html/2606.07392#bib.bib119](https://arxiv.org/html/2606.07392#bib.bib119), Kwonet al.2023 [https://arxiv.org/html/2606.07392#bib.bib120](https://arxiv.org/html/2606.07392#bib.bib120), Agrawalet al.2024 [https://arxiv.org/html/2606.07392#bib.bib121](https://arxiv.org/html/2606.07392#bib.bib121), Aoet al.2025 [https://arxiv.org/html/2606.07392#bib.bib117](https://arxiv.org/html/2606.07392#bib.bib117), Jailletet al.2025 [https://arxiv.org/html/2606.07392#bib.bib116](https://arxiv.org/html/2606.07392#bib.bib116)）。我们的重点在于API消费者面临的决策问题：如何动态查询一组API，以经济高效的方式获取高质量输出。

管理这种成本-质量权衡的一个突出方法是 ***LLM 级联*** （例如，参见 Chenet al.2025a [https://arxiv.org/html/2606.07392#bib.bib68](https://arxiv.org/html/2606.07392#bib.bib68), Yueet al.2024 [https://arxiv.org/html/2606.07392#bib.bib77](https://arxiv.org/html/2606.07392#bib.bib77), Guptaet al.2024 [https://arxiv.org/html/2606.07392#bib.bib115](https://arxiv.org/html/2606.07392#bib.bib115)）。级联并非将每个请求直接发送给一个昂贵的模型，而是顺序查询LLM API，通常从成本较低的模型开始，并且仅在早期输出看起来不够可靠时才升级。例如，Chenet al.（2025a）的开创性工作通过将查询路由经一系列LLM API来展示这种设计，一旦生成的响应从评估者处获得足够高的可靠性分数，就停止查询。级联允许简单的请求由更便宜的API处理，只有困难的请求才会被升级到昂贵的API。来自Chenet al.（2025a）的经验证据表明，这种级联可以显著降低推理成本，同时保持甚至在某些情况下提高任务性能。

LLM 级联系统引发了一个基本的顺序决策问题。对于每个传入的请求，决策者必须同时管理查询阶段和选择阶段。在查询阶段，决策者必须决定接下来查询哪个API，以及生成的输出是否足以证明继续搜索是合理的。在选择阶段，决策者必须决定部署哪个生成的输出。这些决策是紧密耦合的。查询另一个API成本高昂，但可能会揭示更好的输出；提前停止查询阶段可以节省成本，但会显著增加无法生成更好结果的风险；而在已查询的输出中进行选择需要评估其下游价值。因此，LLM级联不仅仅是一个模型路由问题，更是一个带有昂贵信息获取的搜索问题。

对这个搜索问题进行原则性分析的一个自然起点是经典的潘多拉魔盒问题。考虑一个理想化的基准，其中对于每个请求，决策者知道每个API生成的输出-成本对的情境相关分布，并且一旦观察到任何生成的输出，就能评估其下游价值。在这个基准中，查询一个API对应于打开一个盒子，推理成本作为检查成本，而生成输出的下游价值则作为实现的奖励。对于这种表述，Weitzman（1979）的开创性工作描述了最优策略的结构。具体来说，给定请求的情境，该策略为每个API分配一个保留指数，然后按照这些指数的递减顺序查询API，一旦某个输出的奖励超过剩余的最高指数，就终止搜索。

然而，LLM级联的实际应用偏离了这个专家基准，使得学习成为核心。查询一个API的价值本质上是情境化的，而专家Weitzman策略所需的基本要素很少能事先获知。在某些情况下，企业可能拥有大量关于先前人工或AI生成输出及其下游奖励的历史数据，从而能够构建一个准确的离线奖励函数模型。然而，在许多其他情况下，这类输出-奖励对是有限的或无法获得的。此外，即使可以从离线数据中建模奖励，部署LLM API的企业通常也不知道在给定请求情境下每个API生成的输出和成本的条件分布。由于请求随时间顺序到达，决策者必须在继续做出成本敏感的查询和选择决策的同时，学习情境相关的保留指数。这自然引出了LLM级联的在线情境化潘多拉魔盒表述。

最近关于LLM级联的工作已经开发了越来越复杂的方法来平衡成本和性能。这些方法包括预算约束的级联策略、基于不确定性或阈值的延迟规则，以及结合级联与模型路由的混合方法（Chenet al.2025a, Yueet al.2024, Guptaet al.2024, Zhanget al.2024）。虽然这些方法为高效的多LLM部署提供了重要的见解，但它们主要依赖于启发式设计。据我们所知，现有工作尚未将LLM级联表述为具有联合查询和选择的在线情境化潘多拉魔盒问题，也未开发出正式的遗憾保证。

相反，现有的潘多拉魔盒文献并非直接针对这种LLM场景。一条显著的研究路线采用分布学习方法（Liuet al.2025），其中打开盒子会揭示一个标量奖励，学习者在完整分布的参数化结构下，估计奖励分布如何随情境变化。与我们的工作更接近的是，Atsidakouet al.（2024）直接参数化了情境化保留指数，但他们的模型仍然是一个经典的潘多拉魔盒设置，其中打开的盒子直接揭示奖励。相比之下，在LLM级联中，一个API调用揭示的是随机的输出-成本对。在我们的模型中，下游价值取决于请求和生成的输出，而API特定的异质性则通过输出和成本的分布表现出来。

### 1.1 我们的贡献

我们做出了三个主要贡献。首先，我们引入了一个受LLM级联启发的在线情境化潘多拉魔盒模型。与现有的在线潘多拉魔盒模型不同，我们的模型具有一个自然的两阶段决策结构：查询一个API会揭示随机的输出并产生成本，而下游奖励只有在选择一个生成的输出并部署后才能被观测到。这种表述抓住了LLM级联的一个关键实践特征：API特定的异质性通过生成的输出和成本的分布表现出来，而生成输出的下游价值则通过请求-输出对上的共享奖励模型来评估。也就是说，一个API只能通过生成的输出来影响下游价值。

其次，我们为查询阶段提出了一种直接的指数建模和学习方法。在全信息基准中，Weitzman策略由情境化保留指数支配，这些指数由每个API的条件输出和成本分布以及奖励评估器共同导出。我们不直接估计这些分布，而是对保留指数函数本身施加一个参数化结构，将其作为可观察情境特征的广义线性函数。这个建模假设在LLM级联设置中带来了一种实用的基于乐观主义的学习方法，因为决策者可以专注于通过矩方程（而非完整的条件输出分布）从已查询的输出-成本样本中构建乐观的、特定于盒子的保留指数。该策略还从已部署输出的奖励中学习共享的输出级奖励评估器，这两个学习到的对象共同决定了级联的查询和选择决策。

第三，我们为所得的在线策略提供了遗憾保证。该策略将用于保留指数的*广义矩估计法*（GMM）估计与针对指数和奖励的*上置信界*（UCB）方法相结合。我们的策略源于一个简单但至关重要的乐观主义下的遗憾分解：累计遗憾可以分解为仅针对*已查询API*估计保留指数所产生的误差，以及仅针对*已选择API*评估生成输出所产生的误差。这种分解使我们能够将UCB风格的分析应用于我们的矩估计问题，从而产生一个与维度相关的\(\tilde{O}(\sqrt{T})\)累计遗憾界。该分析涵盖了实践中重要的已知评估者情形（其中离线数据提供了准确的输出级奖励模型），以及评估者和保留指数必须在线上联合学习的完整情形。

### 1.2 相关文献

我们的工作与关于成本感知的LLM系统、序列测试时推理以及序列搜索和在线学习的理论框架的文献有关。

首先，我们的论文与新兴的关于LLM级联和成本感知的多LLM部署的文献密切相关。这类文献研究当模型在成本、延迟和输出质量上存在差异时，如何将推理请求分配到多个LLM API。代表性方法包括 FrugalGPT（Chenet al.2025a）、预算约束的级联策略、基于不确定性或可靠性的延迟规则，以及结合级联与模型路由的混合方法（Nieet al.2024, Chenet al.2024, Zhanget al.2024, Yueet al.2024, Guptaet al.2024）。我们的工作通过将LLM级联表述为一个在线情境化潘多拉魔盒问题来为该文献做出贡献，其中决策者在未知的、情境相关的输出和成本分布下，顺序决定查询哪些API以及何时停止。

我们的工作也与LLM路由和集成方法相关，尽管它们解决了与我们LLM级联动机不同的决策问题。路由方法通常在观察到任何生成的输出之前为每个请求选择一个单一的LLM，通过非预测规则或通过预测的质量、奖励或效用分数（Huet al.2024, Shnitzeret al.2023, Hari and Thomson2023, Luet al.2024, Šakotaet al.2024, Meiet al.2025）。这些方法捕捉了一次性的模型选择，而非请求内的自适应搜索。集成方法聚合或综合来自多个LLM的输出，例如通过对候选响应进行排序和融合（Jianget al.2023, Fanget al.2024, Huet al.2025）；它们专注于输出聚合，而非存在查询成本下的顺序停止。

其次，我们的论文与最近关于LLM推理的序列检验和序列停止的研究工作有关。Huanget al.（2026）研究单个LLM的自适应自洽性，其中系统顺序采样推理路径，并在能够以高后验置信度识别出最有可能的答案时停止。Liet al.（2026）研究具有异构LLM的贝叶斯序列检验，其中决策者自适应地选择查询哪个LLM，并在关于假设的后验置信度跨越阈值时停止。

面向上下文LLM级联的在线Pandora's Box

相似文章

基于时变需求的约束赌博机在线LLM选择

CBD：通过受控行为差异实现仅API的LLM黑盒遗忘

安全是情境性的，LLM评判者则不然：驾驭评估者的刚性先验

面向智能体与多模态大语言模型的上下文感知强化学习

学习预测性模糊集以用于面向决策的分布鲁棒优化

提交意见反馈