使用大语言模型生成稳健的优化模型组合

arXiv cs.AI 论文

摘要

提出了一种使用LLMs生成优化模型组合的方法,具有理论保证和实证验证。

arXiv:2605.27013v1 公告类型:新 摘要:数学优化是一种强大的工具,用于跨领域(如资源分配和规划)的结构化决策。然而,构建忠实于现实的优化模型仍然是一个重大瓶颈,因为通常需要领域专业知识和优化知识,而这些往往稀缺。大语言模型(LLMs)的最新进展有望弥合这一差距,使得从自然语言描述生成候选优化模型成为可能。然而,没有任何单个LLM生成的模型是可靠的,因此现有仅输出单个模型的方法风险较高。在这项工作中,我们提出了一种新颖的算法,该算法生成一个优化模型组合,旨在对LLMs的局限性具有稳健性。我们的方法利用了一个观察:单个LLM可以扮演两个不同的角色——作为随机生成器和作为推理评估器——并提出了一个统一框架,以互补的方式利用这两种能力。我们提供了理论保证,表明只要生成器或评估器中至少有一个与人类偏好良好对齐,该组合就保证包含高质量候选模型,从而实现了原则性的人机交互过程,决策者可以在确定最终模型之前审查多个候选模型。我们进一步通过实证验证了我们的方法,在一系列优化建模任务中展示了强大的性能。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:10

# 使用大语言模型生成鲁棒优化模型组合 来源: https://arxiv.org/html/2605.27013

###### 摘要

数学优化是一种强大的工具,用于在资源分配和规划等领域进行结构化决策。然而,构建忠实于现实的优化模型仍然是一个显著的瓶颈,因为这通常需要既具备领域知识又具备优化专业知识,而这些知识往往稀缺。大型语言模型(LLM)的最新进展有望弥合这一差距,使得从自然语言描述中生成候选优化模型成为可能。然而,无法保证任何单个LLM生成的模型是可靠的,因此仅输出一个模型的现有方法存在风险。在这项工作中,我们提出了一种新颖的算法,用于生成一个优化模型组合,旨在对LLM的局限性具有鲁棒性。我们的方法利用了这样一个观察:同一个LLM可以扮演两种不同的角色——随机生成器和推理评估器——并提出一个统一的框架,以互补的方式利用这两种能力。我们提供了理论保证:只要生成器或评估器中有一个与人类偏好良好对齐,该组合就保证包含高质量的候选模型,从而实现一个原则性的人机交互过程,决策者在最终确定模型之前可以审查多个候选模型。我们进一步通过实验验证了我们的方法,展示了在一系列优化建模任务中的强大性能。

优化建模, 组合, 大语言模型

## 1 引言

将结构化决策任务形式化为数学优化问题在资源分配和规划等领域设计最优决策策略中发挥着关键作用(Brill Jr, 1979 (https://arxiv.org/html/2605.27013#bib.bib27); Katoh and Ibaraki, 1998 (https://arxiv.org/html/2605.27013#bib.bib28); Vercellis, 2011 (https://arxiv.org/html/2605.27013#bib.bib26))。然而,定义一个能够准确反映决策任务所有现实世界需求和约束的优化模型可能相当具有挑战性;通常,这不仅需要详尽的手动调整,还需要领域知识和深度优化知识的结合。为了应对这一挑战,人们越来越关注利用大型语言模型(LLM)来自动化根据自然语言任务描述定义优化模型的过程。近期的工作通常侧重于自动化整个模型定义(Yang et al., 2023 (https://arxiv.org/html/2605.27013#bib.bib20), 2024 (https://arxiv.org/html/2605.27013#bib.bib23); Ahmaditeshnizi et al., 2024 (https://arxiv.org/html/2605.27013#bib.bib21); Astorga et al., 2024 (https://arxiv.org/html/2605.27013#bib.bib22); Zhang et al., 2024 (https://arxiv.org/html/2605.27013#bib.bib29); Jiang et al., 2024 (https://arxiv.org/html/2605.27013#bib.bib31); Ahmed and Choudhury, 2024 (https://arxiv.org/html/2605.27013#bib.bib32); Huang et al., 2025 (https://arxiv.org/html/2605.27013#bib.bib19); Xiao et al., 2025 (https://arxiv.org/html/2605.27013#bib.bib30)),或者仅限于设计目标(奖励)函数的部分模型定义(Icarte et al., 2022 (https://arxiv.org/html/2605.27013#bib.bib3); Yu et al., 2023 (https://arxiv.org/html/2605.27013#bib.bib1); Shinn et al., 2023 (https://arxiv.org/html/2605.27013#bib.bib6); Ma et al., 2024 (https://arxiv.org/html/2605.27013#bib.bib7); Hwang et al., 2024 (https://arxiv.org/html/2605.27013#bib.bib9); Xie et al., 2024 (https://arxiv.org/html/2605.27013#bib.bib4); Behari et al., 2024 (https://arxiv.org/html/2605.27013#bib.bib5); Verma et al., 2025 (https://arxiv.org/html/2605.27013#bib.bib11); Sun et al., 2026 (https://arxiv.org/html/2605.27013#bib.bib2))。然而,以往的工作通常提出计算量大的方法,需要额外训练或微调语言模型,目标生成单一的优化模型,同时缺乏对其质量的保证。在这项工作中,我们引入了一种轻量级、无需训练的算法,用于生成一个优化模型组合,在保证生成模型质量的同时,对语言模型的局限性具有鲁棒性。为了实现这一目标,我们的算法利用了语言模型能力的双重视角,下文将对此进行描述。

语言模型可以作为随机生成器(Verma et al., 2025 (https://arxiv.org/html/2605.27013#bib.bib11); Cardenoso and Caarls, 2025 (https://arxiv.org/html/2605.27013#bib.bib15)),通过重复随机采样提供多样化的模型,从而考虑到当前优化任务中存在的不同权衡。此外,语言模型也可以作为裁判或推理评估器(Verma et al., 2025 (https://arxiv.org/html/2605.27013#bib.bib11); Saccon et al., 2025 (https://arxiv.org/html/2605.27013#bib.bib14)),基于其世界知识和推理能力对给定输入的质量进行论证。通过统一这些操作模式,我们的方法利用了它们的互补优势,为组合中模型的质量提供了鲁棒性保证,使得决策者能够在最终确定一个模型之前审查多个高质量的候选模型。

贡献。我们提出了一种方法,首先使用一个语言模型(即生成器)通过重复随机采样生成候选优化模型的分布。接下来,我们的方法使用一个裁判代理(即评估器)根据这些优化模型与自然语言优化任务描述的匹配程度进行排序。我们构建一个组合,其中包含评估器排序最高且总生成概率超过用户指定阈值的候选优化模型。我们证明了,通过这种方式,如果生成器或评估器中至少有一个满足与人类偏好的一定对齐程度,我们的组合就能保证包含高质量的候选模型。我们通过合成数据和真实数据的实验,实证验证了组合的强劲性能。

## 2 通过生成器和评估器构建组合

令 d 为优化问题的自然语言描述,g 为随机生成器模型,e 为评估器模型。

生成器。给定自然语言描述 d ∈ D,其中 D 是任何自然语言提示的空间,我们将生成器 g 视为候选优化模型空间 O 上的概率分布 p。¹

评估器。给定优化问题描述 d,我们将评估器视为候选优化模型 o ∈ O 空间上的排序策略 π_e,诱导出一个排序 π_e(d) = (o_{(1)}^e, o_{(2)}^e, ...),(1) 其中下标 (·) 表示候选 o 的排名。我们假设排名越低,根据评估器的世界知识,给定描述 d 的候选越好,并且平局随机打破。

我们使用生成器 g(d) 诱导的概率分布 p 和评估器 e 诱导的排序 π_e(d) 来构建我们的候选优化模型组合 P 如下:

P(d; α) = { o_{(i)}^e }_{i=1}^{k^*(α)}, (2)

其中 α ∈ (0,1) 是用户定义的参数,并且

k^*(α) = inf{ k ∈ N : ∑_{i=1}^k p(o_{(i)}^e) ≥ 1 - α }。

通过以这种方式构建我们的组合,我们确保对于足够小的 α,我们的组合将包含候选模型,要么是因为它们具有较低的(好的)评估器排名,要么是因为它们具有较高的生成概率。这意味着,只要评估器对它们排名较低,或者生成器以高概率生成它们,即只要其中一个是与人类偏好良好对齐的,我们的组合就将包含高质量的模型。受此观察的启发,在下文中,我们证明了如果生成器或评估器中的任意一个是与人类对齐的,我们的组合就保证包含高质量的候选模型。

## 3 鲁棒组合生成

我们首先在以下假设下定义生成器和评估器的与人类对齐性。

###### 假设 3.1。给定自然描述 d,存在一个人类排序策略 π^*,在 o ∈ O 上诱导出排序 π^*(d),其中 π^*(d) = (o_{(1)}^*, o_{(2)}^*, ...),(3) 其中排名越低,根据人类偏好的候选优化模型 o 的质量越高。

基于上述,我们给出以下定义。

###### 定义 3.2(评估器对齐)。给定 d,如果诱导的排序 π_e(d) = π^*(d),则评估器是与人类对齐的。

###### 定义 3.3(生成器对齐)。给定 d,如果一个在候选优化模型 o ∈ O 上诱导概率 p 的生成器模型,对于任意 o_{(i)}^*, o_{(j)}^* ∈ π^*(d) 且 i ≤ j,满足 p(o_{(i)}^*) ≥ p(o_{(j)}^*),(4) 则它是与人类对齐的。

直观上,与人类对齐的生成器会以高概率生成根据人类偏好被视为高质量的候选模型。我们证明,在评估器或生成器对齐的情况下,我们的组合保证包含高质量候选模型,或者更正式地说,实现正覆盖,其中覆盖定义如下。

###### 定义 3.4(组合覆盖)。包含 k 个候选的组合 P 的覆盖率为 c(P) = (∑_{i=1}^k I{ o_{(i)}^* ∈ P }) / k,(5)

在评估器对齐和任意生成器的情况下,我们证明:²

###### 推论 3.5(评估器鲁棒性)。假设在定义 3.2 下针对描述 d 的对齐评估器。对于任意 α ∈ (0,1) 和任意生成器,使用公式 (2) 构建的组合 P(d; α) 具有覆盖率 c(P(d; α)) = 1。

在生成器对齐和任意评估器的情况下,我们证明:

###### 命题 3.6。假设在定义 3.3 下针对描述 d 的对齐生成器。对于任意 α ∈ (0, 1/2) 和任意评估器,使用公式 (2) 构建的任何非空组合 P(d; α) 具有覆盖率 c(P(d; α)) > (1 - 2α) / k^*(α) > 0。

## 4 实验

我们首先在合成数据设置中模拟不同人类对齐水平下的生成器和评估器,其中我们 i) 经验性地验证了我们组合的鲁棒性,并且 ii) 研究了人类对齐对组合覆盖率和大小的影响。然后,我们进行优化建模的真实数据实现,展示了与随机采样组合提供的优化模型相比,我们组合中的优化模型在质量上更优越。

### 4.1 模拟组合

在我们的合成数据设置中,我们考虑一个有限的候选优化模型空间 O,使得 |O| = K,其中 K ∈ {10, 20, 50, 100},人类排序为 (1, 2, ..., K)。我们模拟了几种生成器和评估器类型,每种类型具有不同的人类对齐水平,如下所述。对于每个生成器-评估器对,我们使用公式 (2) 为从 0 到 1 步长为 0.02 的每个 α 值构建一个组合,并用 40 个不同的种子重复实验。

生成器。我们实现了以下生成器类型(更多细节请参考附录 B.1)。

- • 对齐(Aligned)。满足定义 3.3 的生成器。
- • 弱对齐(Weakly Aligned)。违反定义 3.3 的生成器,但对于该生成器,命题 3.6 对任何包含 K/2 个生成候选的组合成立。
- • 均匀(Uniform)。每个生成候选 i ∈ [K] 的概率 p(i) = 1/K 的生成器。
- • 不对齐(Misaligned)。反向对齐的生成器。

评估器。我们通过错误排序候选的比例来表征每个评估器,我们将其称为评估器误差 ε = (∑_{i=1}^K I{ o_{(i)}^* ≠ o_{(i)}^e }) / K。我们针对 ε ∈ {0, 0.3, 0.5, 0.7, 1} 实现了评估器,其中 ε = 0 表征了具有 π^* = π_e 的人类对齐评估器,而 ε = 1 则表征了评估器 e 使得 ∀ i ∈ [K], o_{(i)}^e = o_{(K+1-i)}^*。

参见图注:图 1:对于弱对齐生成器与每个评估器配对的情况(K=100),组合平均覆盖率随 1-α 值的变化。平均值基于 40 次迭代,阴影区域表示 95% 置信区间。

参见图注:图 2:对于弱对齐生成器与每个评估器配对的情况(K=100),组合平均大小随 1-α 值的变化。平均值基于 40 次迭代,阴影区域表示 95% 置信区间。

参见图注:图 3:对于 ε=1.0 的评估器与每个生成器配对的情况(K=100),组合平均覆盖率随 1-α 值的变化。平均值基于 40 次迭代,阴影区域表示 95% 置信区间。

参见图注:图 4:对于 ε=1.0 的评估器与每个生成器配对的情况(K=100),组合平均大小随 1-α 值的变化。平均值基于 40 次迭代,阴影区域表示 95% 置信区间。

结果。图 1 和图 3 显示——与命题 3.6 一致——对于 α < 0.5,即使是在弱对齐生成器下,我们的组合也实现了正覆盖率,且独立于评估器误差 ε。实际上,图 1 显示,在实践中,覆盖率的下界是 1 - α——比命题 3.6 更紧的下界——因为对于 α < 0.5,覆盖率始终在对角线之上。此外,图 1-4 揭示了关于人类对齐水平如何控制组合覆盖率与其大小之间权衡的显著见解;图 1

相似文章

训练利润最优LLM的理论

arXiv cs.LG

本文提出了一种经济模型,结合缩放定律与微观经济学理论,分析大语言模型在利润最优情况下的训练策略,权衡模型质量、训练成本与硬件效率等因素。

借助大语言模型发现强化学习接口

Hugging Face Daily Papers

本文介绍了 LIMEN,这是一个由大语言模型引导的演化框架,能够通过联合优化原始模拟器状态的观测映射与奖励函数,自动发现强化学习接口。该方法有效降低了人工设计成本,并证明了观测与奖励的协同设计优于单独优化其中任意单一组件。

通过大型模型的演化

OpenAI Blog

本论文证明了在代码上训练的大型语言模型可以显著增强遗传编程的变异算子,使得能够在 Sodarace 领域中生成数十万个功能性 Python 程序用于机器人设计,且无需预训练数据。该方法称为演化通过大型模型(ELM),将 LLM 与 MAP-Elites 相结合,为上下文特定的制品生成引导新的条件模型。