大型语言模型作为优化器:直接方法与工具增强方法的调查及其性能前沿

arXiv cs.AI 论文

摘要

本调查将基于LLM的优化分为三个范式——直接优化、工具增强优化和工具创建优化——并回顾了它们的性能前沿和局限性。

arXiv:2606.15577v1 公告类型:新 摘要:大型语言模型(LLM)日益参与复杂的数学优化,即使触发它们的实用用户并未意识到这一点。毕竟,许多现实世界问题都归结为寻找更好或最佳解决方案。LLM作为优化器的领域有三种范式:直接优化、工具增强优化和工具创建优化。直接优化使用迭代提示和启发式生成来导航解空间。工具增强优化将自然语言问题转化为形式化规范,并协调外部求解器。工具创建优化则更进一步,利用LLM发现可重用的算法或启发式方法,这些方法可以以零边际LLM成本部署。我们根据文献中的基准描述了当前的性能前沿。我们指出了当前架构中的关键推理差距,并论证了直接优化未来潜力与工具增强优化可审计性之间的权衡。即使是未来更强大的模型,也可能选择工具制造来提高重复问题家族的操作效率。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:47

# 大语言模型作为优化器:直接方法与工具增强方法及其性能前沿综述
来源:https://arxiv.org/html/2606.15577
luka\.hobor@fer\.hr · mihael\.kovac@fer\.hr · mario\.brcic@fer\.hr

###### 摘要

大语言模型(LLM)正越来越多地参与复杂的数学优化问题,即使触发它们的实际用户并未意识到这一点。毕竟,许多现实世界的问题最终都归结为寻找更好或最佳解决方案。LLM作为优化器的领域存在三种范式:直接优化、工具增强优化和工具创造优化。直接优化利用迭代提示和启发式生成来探索解空间。工具增强优化将自然语言问题转化为形式化规约,并协调外部求解器。工具创造优化更进一步,利用LLM发现可复用的算法或启发式方法,这些算法能以零边际LLM成本部署。我们基于文献中的基准描述了当前性能前沿。我们指出了当前架构中的关键推理缺口,并论证了直接优化的未来潜力与工具增强优化的可审计性之间的权衡。即使未来的更强模型,也可能会选择工具创造来提升重复性问题族上的运行效率。

## I. 引言

大语言模型(LLM)现已应用于复杂的优化任务,如车辆路径规划、资源调度、超参数调优和算法发现[43,35,2,8]。

许多现实世界的优化问题最初以自然语言描述——散文般的交付约束、实验笔记中的目标。传统优化需要在求解器(如Gurobi、CPLEX、Z3)使用前,将这些描述转化为形式化的数学规划。LLM可以通过直接解决问题或自动化这一转化过程来弥合这一差距。

目前已经出现了三种范式。**直接优化**:LLM自身充当优化器:生成候选解、接收反馈并进行迭代优化[43,16]。**工具增强优化**:LLM充当翻译器和协调器,将自然语言问题转化为形式化数学规划,并分派给外部求解器[2,17]。**工具创造优化**:LLM生成可复用的启发式算法,这些算法在求解器或元启发式框架内运行,而非针对单个问题构建形式化规约[35,45]。

本综述回顾了这三种范式,报告了文献中的性能前沿,并指出了限制直接方法的推理缺口。第二部分涵盖直接优化。第三部分涵盖工具增强方法。第四部分描述工具创造方法。第五部分分析LLM为何能作为优化器、模型选择的作用及其失败之处。第六部分讨论开放挑战。

## II. 直接优化

直接范式的核心问题是:LLM能否在没有任何外部求解器的情况下导航解空间?LLM生成候选解,接收质量反馈,并迭代优化这些解。该范式已从小型提示任务发展到NP难组合优化问题,但一个基本的规模限制仍然存在。

### II-A 基础发展路线:从提示到迭代搜索(2022–2024)

思维链(Chain-of-Thought, CoT, 2022)[39]和思维树(Tree-of-Thought, ToT, 2023)[44]表明,中间推理步骤能提升LLM在结构化任务上的表现。**OPRO**(2024)[43]在此基础上,将优化构建为一个自然语言循环:LLM接收带有目标值的先前解,并生成改进的候选解。使用GPT-4和PaLM 2,OPRO在GSM8K上实现了+8%的提示优化提升,在BBH上提升了+50%,但当变量超过约20个时,性能下降——在TSP上,简单启发式方法优于所有测试的LLM。**SGE**(2024)[16]将迭代提示扩展至NP难组合问题,通过将问题分解为子任务并探索多条推理路径(比先前的提示方法提升+27.8%)。相关方法将相同的原理应用于规划(AdaPlanner, 2023[37])和无梯度更新的强化学习[4]。

### II-B 扩展到新问题类别(2023–2024)

直接范式在LLM领域知识优于传统优化器的情况下泛化良好。在**超参数优化**中,Zhang等人(2023)[48]展示了GPT-4引导的搜索与贝叶斯优化竞争,利用了模型提出数值搜索空间之外架构变化的能力。**LLAMBO**(2024)[26]通过用LLM替换高斯过程代理,形式化了这一方法,实现了强大的早期搜索效率——例如,化学合成产率从25.2%提升至60.7%。对于**调度**,Abgaryan等人[1]在12万个作业车间实例上微调了LLM,性能可与带有强化学习的图神经网络相媲美。Liu等人[23]将LLM作为交叉和变异算子应用于多目标进化优化。

### II-C 微调前沿(2025)

当前前沿将提示时推理替换为训练时内化。**E2E CO Solver**(2025)[19]通过监督微调和可行性与最优性感知的强化学习训练了一个70亿参数的开放权重LLM,将自然语言描述直接映射为七种NP难问题类型的解,最优性差距为1-8%,无需任何求解器或代码生成。**LLaMoCo**[27]同样对开放权重模型进行指令微调,用于优化代码生成。这些方法代表了一种质的转变:模型内化优化启发式,而非从头推理。

直接范式在**不良结构问题**(形式化约束规约不切实际)和**评估昂贵场景**(领域知识可加速搜索)中表现最强。微调推动了规模极限,但更高复杂度下的推理缺口尚未通过提示解决(第五部分)。

## III. 工具增强优化

工具增强范式将求解工作委托给外部引擎(图1)。这种分工在结构化基准上实现了最高准确率,并在规约正确时继承了求解器的数学保证。规约正确性是核心挑战,自2023年以来该领域的演进很大程度上是识别并依次攻击这一过程中各个瓶颈的故事。

![图1:工具增强方法的工作流](https://arxiv.org/html/2606.15577/S3.F1)

### III-A 从管道到训练系统(2023–2025)

**OptiMUS**(2024)[2]建立了经典架构:自然语言输入 → LLM规约 → 求解器代码 → 执行 → 错误反馈。基于GPT-4,其多智能体结构(规约器/程序员/评估器)在NLP4LP上超出标准提示方法40个百分点以上。两个响应从不同角度攻击了局限性。**CoE**(2024)[41]添加了专门专家智能体,具备向后反思能力,针对复杂工业运筹学。**ORLM**(2025)[15]采取了数据驱动路径,在OR-Instruct(一个半自动化数据合成框架)上微调了开放权重的7B规模模型(基于LLaMA[38]),比GPT-4提示高出42.2%。**LLMOPT**(2025)[17]综合了两个方向,采用通用五元素规约、SFT+DPO对齐和自动测试自我修正,在NL4Opt上达到97.3%。**SIRL**(2025)[7]在强化学习过程中将求解器执行输出作为可验证奖励,SIRL-32B(基于Qwen[42])在大多数基准上超越DeepSeek-V3和OpenAI-o3。Deng等人[9]表明,将编码作为规约可以在无需微调的情况下提升LLM在线性规划上的表现。

并行分支将范围扩展到LP/MILP之外。**SATLM**(2023)[46]将LLM应用于SAT/SMT规约。Michailidis等人[28]展示了通过上下文学习进行约束建模。Hao等人[12]使用LLM驱动的形式化编程进行零样本规划。**MCP-Solver**(2025)[10]标准化了MiniZinc、PySAT和Z3上的求解器接口。商业部署证实了管道的可行性:NVIDIA cuOpt[31]实现了路由速度120倍的提升;OptiGuide[20]在微软以93%的准确率处理供应链查询。

### III-B 正确性前沿(2025–2026)

架构和训练进展将简单基准上的准确率推近天花板,揭示出更深的瓶颈:**无声规约失败**。标准的反馈循环——将求解器错误消息重新输入LLM——只解决了21-31%的纯编码错误;规约错误产生的代码能干净执行,却编码了错误的问题[40]。自我修正存在结构性限制:模型在正确与错误的规约之间振荡,或修正已经正确的代码[49]。

2025-2026年的三种方法从不同角度攻击这一问题。**SAC-Opt**[51]重建语义锚点以识别和修复逻辑上错误的规约(在复杂LP上提升+21.9%)。**Autoformulation**(2025)[3]将规约重新构建为组合搜索,使用基于MCTS和SMT符号剪枝来探索替代数学模型。**ReLoop**(2026)[22]引入了**行为验证**:扰动约束参数以测试目标是否响应——如果未响应,则缺少约束。这使Claude Opus的正确率从22.6%提升至31.1%,同时揭示了问题的严重性:DeepSeek-V3.2在求解器可行性上达到91.1%,但在组合场景中规约正确率仅为0.5%,存在90个百分点的差距。

### III-C 基准与性能前沿

评估现状反映了该领域的公开挑战。表I总结了关键基准和最佳报告结果。

**表I:** 工具增强优化基准。**可靠性**反映真值标注质量:H = 手工验证;M = 估计误差≤20%;L = 误差>20%(IndustryOR最高达54%)[40]。在简单LP上近乎完美的准确率在真实世界工业OR上降至57%,在组合多约束场景中降至31.1%。这些数据必须视为**乐观上界**:基准标注包含15-54%的错误[40],使得观测准确率部分成为测量伪影。RetailOpt-190[22]具有手工验证的解和联合约束集,是迈向真实复杂度下可靠评估的第一步。

## IV. 工具创造方法:LLM驱动的算法发现

工具创造方法利用LLM**发现算法**。这些算法是通用的,在代码执行器、求解器或元启发式框架内执行,而不仅仅是解决单个问题实例。与工具增强优化的关键区别在于打破了预定义工具带来的限制。工具增强系统的表达能力和能力受限于可用工具集。相比之下,工具创造系统产生更高的初始LLM成本来生成一个**可复用**的工具,该工具可以独立部署,随着初始投资在重复使用中被摊销,相对于工具增强方法实现了实际上为零的边际LLM成本。该范式源于2023-2024年在进化程序搜索方面的研究,到2025年达到生产部署阶段,并且是增长最快的子领域,最近的调查[25]收录了超过180篇论文。

### IV-A 进化程序搜索

基础工作是**FunSearch**[35](2024),它使用基于PaLM 2的Codey模型作为进化框架内的变异算子,以进化出程序空间的启发式方法。FunSearch发现了优于经典启发式的装箱策略,并构建了大型帽集。可复现性有限:140次独立运行中只有4次发现了声称的帽集结果,并且该方法表现出对LLM自身先前输出敏感性的路径依赖性。

**EoH**[24](2024)解决了FunSearch的一个关键限制,同时进化自然语言**思想**和代码。这种双重表示使得搜索更高效——EoH在使用GPT-4且显著减少LLM调用的情况下发现了更优的装箱启发式。

**AlphaEvolve**[30](2025)将范式扩展到生产规模,采用双层架构:Gemini Flash生成大量候选,Gemini Pro处理质量关键突变。它发现了一个调度启发式方法,部署在Google的Borg集群上,并在Gemini训练内核上实现了23%的加速。这些结果来自大规模计算和专有基础设施,使得独立复现困难。

### IV-B 反思性与基于智能体的方法

**ReEvo**[45](2024)引入了“口头梯度”:LLM比较两个启发式方法并用自然语言阐述改进,使进化搜索更具方向性。跨六种组合优化问题类型,ReEvo在大约五分钟内生成了最先进的启发式方法,样本效率显著高于FunSearch。

**VRPAgent**[13](2025)将该范式应用于专业领域:为大型邻域搜索生成问题特定的破坏/修复算子,成为首个在既定车辆路

相似文章

大型语言模型是否适用于图计算?进展与展望

arXiv cs.CL

本综述回顾了大型语言模型在图计算中的应用,将其分为两种范式:LLM作为执行器和LLM作为规划器。研究发现,LLM在简单任务上表现良好,但在大规模精确计算方面不可靠,并提出了未来方向。

大语言模型预训练的数据混合:综述与展望

arXiv cs.CL

# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混