模型能建模,但不能绑定:文本到优化中的结构化接地

arXiv cs.LG 论文

摘要

本文介绍了Text2Opt-Bench,一个可扩展的文本到优化基准,并发现大语言模型在“绑定”(问题数据接地)方面存在困难,而非“建模”(选择优化结构)。作者提出了BIND,一种简单的推理时方法,将数值数据外部化,显著提高了各模型的准确率。

arXiv:2605.21751v1 公告类型:新 摘要:文本到优化需要两种可分离的能力:建模——选择正确的优化结构,以及绑定——将每个系数、索引和参数与具体问题数据对应起来。我们通过Text2Opt-Bench来研究这一点,这是一个可扩展的基准测试,包含12个类别的求解器验证优化问题,从教科书线性规划到随机和多目标公式,变量多达数千个。在10多个模型上,我们发现随着实例数据的增加,准确率急剧下降,即使公式本身很简单。我们称之为有效绑定极限。我们通过一种简单的推理时方法BIND来解决这个问题,该方法将数值数据外部化为结构化文件,使模型以编程方式绑定数据,而不是从提示中转录。BIND将GPT-5-Nano的准确率从59.1%提高到82.4%,在低于pass@1的令牌成本下匹配pass@5(82.0%),并将GPT-5从86.2%提高到95.8%。此外,我们通过仅针对绑定微调模型来验证我们的假设,并表明它在三个结构不同的优化类别中优于端到端SFT和RL,一个1.5B的绑定专家单独匹配了7B的端到端基线。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:51

# 模型能建模,但无法绑定:文本到优化中的结构化接地

**来源:** https://arxiv.org/html/2605.21751

Albert Ge  
威斯康星大学麦迪逊分校

Alexander Berenbeim  
美国军事学院

Nathaniel D. Bastian  
美国军事学院

Frederic Sala  
威斯康星大学麦迪逊分校

###### 摘要

## 摘要

*文本到优化*需要两种可分离的能力:*建模*——选择正确的优化结构,以及*绑定*——将每个系数、索引和参数具体落实到实际问题的数据中。我们通过 Text2Opt-Bench 来研究这一问题,这是一个可扩展的、经过求解器验证的优化问题基准测试,涵盖 12 个类别,从教科书式的线性规划到具有数千个变量的随机和多目标公式。在 10 多个模型上,我们发现,即使问题的公式本身很简单,随着实例数据的增长,准确率也会急剧下降。我们将此称为*有效绑定极限*。我们通过一种简单的推理时间方法 BIND 解决了这个问题,该方法将数值数据外部化到结构化文件中,使得模型能够以编程方式绑定数据,而不是从提示中转录数据。BIND 将 GPT-5-Nano 的准确率从 59.1% 提升到 82.4%,以低于 pass@1 的 token 成本达到了 pass@5 的水平(82.0%),并将 GPT-5 的准确率从 86.2% 提升到 95.8%。此外,我们通过在绑定任务上微调模型来验证我们的假设,结果表明,在三个结构不同的优化类别中,该模型的表现优于端到端的有监督微调(SFT)和强化学习(RL),一个 1.5B 的绑定专家模型在性能上就能媲美一个 7B 的端到端基线模型。

\correspondingauthor 高志奇: [email protected] *同等贡献。

## 1 引言

运筹学(OR)是物流、能源和供应链等工业决策的核心。利用大语言模型(LLM)从自然语言中求解运筹学任务(即执行文本到优化)需要两种不同的能力:(1)建模,即选择正确的优化模型和结构;以及(2)绑定,即将变量、约束、系数和其他问题参数落实到给定的数据上。第一种能力需要*推理*技能,这是模型近期取得显著进展的领域。然而,第二种能力仍然难以实现。我们认为,当前文本到优化系统的主要瓶颈在于绑定而非建模。

为了验证这一假设,我们转向那些衡量文本到优化能力的基准测试。现有的基准测试(Ramamonjison 等人,2022 (https://arxiv.org/html/2605.21751#bib.bib18);Mostajabdaveh 等人,2025 (https://arxiv.org/html/2605.21751#bib.bib17);Wang 等人,2024 (https://arxiv.org/html/2605.21751#bib.bib26);Huang 等人,2025a (https://arxiv.org/html/2605.21751#bib.bib10))针对的是教科书式的问题规模:小规模、确定性、单目标规划,其中每个约束都是明确陈述的。现实世界的运筹学问题涉及不确定性、相互竞争的目标以及用于推导约束的领域知识。这些特征在现有的基准测试中是不存在的。

我们通过 **Text2Opt-Bench** 来应对这些挑战,这是一个可扩展的、经过验证的优化问题基准测试,涵盖 **12 个问题类别**,包括线性规划(LP)、混合整数线性规划(MILP)、混合整数二次规划(MIQP)和非线性公式——包括带有机会约束的随机规划、具有相互竞争的成本和排放目标的多目标公式,以及需要特定领域约束推导(欧姆定律、Erlang-C 排队模型)的问题。我们的基准测试是通过一个*前向工程*流程构建的:我们首先构建一个经过求解器验证的优化问题,然后根据问题底层场景参数生成自然语言描述。这将语言生成与数学结构解耦,确保每个问题实例在构造上是可行的,并且评估失败可以明确地归因于模型,而不是基准测试的产物。

见图注

**图 1:** 三个模型系列(550 个模板问题)的解准确率与组合 token 成本对比。BIND 显著提高了 pass@1 的准确率,并在使用显著更少 token 的情况下,与其他测试时计算策略保持竞争力。我们与作为迭代改进上限的 oracle 反馈及作为并行采样上限的 pass@5 进行了比较。

使用这个基准测试,我们评估了来自 OpenAI、Claude、Deepseek、Llama 和 Qwen 系列的 10 多个模型,并报告了三个主要发现:(1)**对于前沿模型,绑定是主要的瓶颈**。GPT-5-Nano 的准确率从 72% 下降到 11%,即使其公式保持不变。闭源前沿模型在整体准确率上(86–88%)非常接近,而推理模型(o4-mini, DeepSeek-R1)未能超越标准模型,这表明它们并未解决绑定失败的问题。同样的准确率悬崖也出现在非 OR 的 RULER 检索任务中(§4.2 (https://arxiv.org/html/2605.21751#S4.SS2))。(2)**绑定感知的推理能显著提升性能**。我们引入了 **BIND**,它将数值数据外部化到结构化文件中,使得模型能够以编程方式绑定数据。BIND 将 GPT-5-Nano 的性能从 59.1% 提升到 82.4%——以最低的 token 成本达到了 pass@5 的水平(82.0%)——并将 GPT-5 从 86.2% 提升到 95.8%,其中在数据密集型类别上提升最大(GPT-5-Nano 在随机运输问题上提升 56 个百分点)。(3)**训练绑定专用模型最为有效**。我们从纯推理方法转向训练方法。令人惊讶的是,我们发现,在 7B 规模下,有监督微调(SFT)优于强化学习(RL)。这与绑定是瓶颈的观点一致:SFT 对系数转录提供了密集的监督,而 RL 的稀疏奖励则难以区分错误的公式和错误的参数。基于这一观察,我们证明,训练一个 7B 绑定专家模型在三个结构不同的类别上均优于端到端 SFT:58.1% vs. 51.2%(资源分配),100% vs. 96%(作业车间调度),以及 96% vs. 88%(运输)。

总而言之,我们的主要贡献是:(1)**Text2Opt-Bench**,一个可扩展的、经过求解器验证的基准测试,涵盖 12 个问题类别(LP/MILP/MIQP/非线性,最多 1000 多个变量);(2)**绑定瓶颈分析**,表明实例绑定是主要的失败模式,并通过 RULER 检索实验得到确认;(3)**BIND**,一种绑定感知的推理方法,其性能优于迭代修复和并行采样,且成本更低;(4)**证明**了将训练分解为绑定环节能产生比端到端 SFT 或 RL 更强大、参数效率更高的模型。

## 2 相关工作

我们简要介绍相关的研究工作。

**文本到优化。** 目前有持续的研究工作致力于开发从自然语言中求解优化问题的基准测试和方法。在基准测试方面,NL4Opt(Ramamonjison 等人,2022 (https://arxiv.org/html/2605.21751#bib.bib18))将优化视为针对小型 LP 的实体抽取任务。OptiBench(Wang 等人,2024 (https://arxiv.org/html/2605.21751#bib.bib26))、ORLM(Huang 等人,2025a (https://arxiv.org/html/2605.21751#bib.bib10))、MAMO(Huang 等人,2025b (https://arxiv.org/html/2605.21751#bib.bib11))和 OptMATH(Lu 等人,2025 (https://arxiv.org/html/2605.21751#bib.bib16))提供了经过求解器验证的实例,但仅限教科书式的问题规模。最近的研究工作(OPT-Engine(Chen 等人,2026 (https://arxiv.org/html/2605.21751#bib.bib6))、ProOPF(Shen 等人,2026 (https://arxiv.org/html/2605.21751#bib.bib21))、ConstraintBench(Tso 等人,2026 (https://arxiv.org/html/2605.21751#bib.bib25))、ORQA(Mostajabdaveh 等人,2025 (https://arxiv.org/html/2605.21751#bib.bib17))、NLMOptimizer(Berenbeim 等人,2025 (https://arxiv.org/html/2605.21751#bib.bib2)))扩展了问题类型和规模。表 1 (https://arxiv.org/html/2605.21751#S2.T1) 比较了这些基准测试。我们的基准测试 Text2Opt-Bench 提供了可控的难度、可扩展性(高达 1000 多个变量)以及具有工业动机的公式。在方法方面,OptiMUS(AhmadiTeshnizi 等人,2024 (https://arxiv.org/html/2605.21751#bib.bib1))和 Chain-of-Experts(Xiao 等人,2024 (https://arxiv.org/html/2605.21751#bib.bib27))使用模块化解构;LLMOPT(Jiang 等人,2025 (https://arxiv.org/html/2605.21751#bib.bib12))学习端到端地定义问题。OR-LLM-Agent(Zhang 等人,2025 (https://arxiv.org/html/2605.21751#bib.bib30))将任务分解为建模、编码和调试。关于综述,请参见 Xiao 等人(2025 (https://arxiv.org/html/2605.21751#bib.bib28))。

**表 1:** 与现有 OR 基准测试的比较。

| 基准测试 | 问题数量 | 已验证 | 最大变量数 | 类型 | 高级公式 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| NL4Opt | 1,101 | ✓ | 5 | LP | × |
| OptiBench | 605 | ✓ | 50 | Mixed | × |
| ORLM | 100 | ✓ | 10 | LP/MILP/NLP | × |
| MAMO | 1,209 | ✓ | 50 | LP/MILP/ODE | × |
| OPT-Engine | 1,810 | ✓ | 40 | LP/MIP | × |
| **Ours** | **可扩展** | **✓** | **1,000+** | **LP/MILP/MIQP/NLP** | **✓** |

**合成数据生成。** 可验证的合成数据已被证明对推理非常有用(Liu 等人,2025 (https://arxiv.org/html/2605.21751#bib.bib14); Goldie 等人,2025 (https://arxiv.org/html/2605.21751#bib.bib8); Seegmiller 等人,2025 (https://arxiv.org/html/2605.21751#bib.bib19));我们的前向工程流程与反向翻译方法(例如 OptMATH)不同,它通过从模拟的世界状态中联合生成描述和 OR 结构。

**数据外部化与程序化访问。** 越来越多的工作将上下文从提示中卸载到外部环境中,模型通过编程方式访问这些环境。PAL(Gao 等人,2023 (https://arxiv.org/html/2605.21751#bib.bib7))和 Program of Thoughts(Chen 等人,2023a (https://arxiv.org/html/2605.21751#bib.bib4))生成代码而非在上下文中执行计算;Recursive Language Models(Zhang 等人,2026 (https://arxiv.org/html/2605.21751#bib.bib29))通过将整个提示视为一个外部环境来泛化这一思想,模型可以递归地查询该环境。这些方法解决了计算或上下文长度的限制。BIND 针对的是另一个瓶颈——数值数据的忠实录——通过在将实例数据加载到上下文之前将其外部化到结构化文件中。

**长上下文检索。** Liu 等人(2023 (https://arxiv.org/html/2605.21751#bib.bib15))表明 LLM 难以从上下文中间部分进行检索;RULER(Hsieh 等人,2024 (https://arxiv.org/html/2605.21751#bib.bib9))使用受控任务来衡量检索退化。我们的实验(§4.2 (https://arxiv.org/html/2605.21751#S4.SS2))表明,这种检索退化也解释了文本到优化中的绑定失败,其中多参数检索随着提取错误的累积而表现出急剧的准确率悬崖。

## 3 Text2Opt-Bench:设计与评估

**问题示例(取自 LLM 输入)**
“催化剂 A 级(仅限整批):每个整批贡献 **7.12** 的利润。每批需要 **1.85** 小时的反应器时间和 **5.99** 小时的包装线时间。我们最多可以运行 **0 到 6** 个整批;不允许部分批次。溶剂混合 B(灵活运行量):每个单位贡献 **5.69** 的利润... 散装中间体 C(仅限整批):每个整批贡献 **4.84** 的利润... 反应器可用时间:最多 **69.83** 小时。包装线:最多 **20.61** 小时。**最大化**总利润。”

| **建模(结构理解)** | **绑定(数值提取)** |
| :--- | :--- |
| • “最大化总利润” → 最大化目标 | • “贡献 7.12” → c₀ (obj.) = 7.12 |
| • “仅限整批” → 整数变量 | • “1.85 小时反应器” → A₀,₀ = 1.85 |
| • “部分批次” → 连续变量 | • “5.99 小时包装” → A₁,₀ = 5.99 |
| • 两个共享资源 → 2 个约束 | • “0 到 6 个批次” → bounds x₀ = [0,6] |
| • “不需要包装” → A₁,₂=0 | • “最多 69.83 小时” → b₀ (RHS) = 69.83 |
| *需要推理;没有具体数字。* | *...还有 9 个值。* |
| | *需要忠实录;错误会随着规模扩大而累加。* |

**图 2:** 一个资源分配实例上的建模与绑定。**建模**选择优化结构(目标类型、变量域、约束);**绑定**从文本中提取每个数值系数。随着实例规模的扩大,绑定成为主要的失败模式。

从自然语言中求解一个优化问题需要选择正确的数学结构,并将该结构落实到问题的数值数据中。我们首先形式化这一分解过程,因为它直接指导了我们的基准测试设计。每个问题类别和评估模式都是为了隔离其中一种能力而构建的。

### 3.1 问题定义

我们将**文本到优化**定义为从自然语言描述 $D$ 中生成可执行的求解器代码的任务。该描述既规定了问题的**结构**(优化什么,受哪些约束),也规定了其**实例数据**(数值系数、边界、需求和参数)。一个正确的解决方案需要两种可分离的能力,如图 2 (https://arxiv.org/html/2605.21751#S3.F2) 所示。

- **建模** $\mathcal{M}: (D^*, \theta) \rightarrow S$ —— 给定问题描述 $D^*$ 和参数 $\theta$,选择目标、约束和变量域,以生成可执行的求解器代码 $S$。
- **绑定** $\mathcal{B}: D \rightarrow \theta$ —— 给定自然语言描述 $D$,提取具体的参数 $\theta$(成本系数、容量限制、需求值等)。

端到端的方法同时执行这两个步骤:单个模型直接将 $D$ 映射到 $S$,在构建公式时隐式地绑定参数(此处 $D^*=D$)。分解的方法将两者分开:首先提取 $\theta = \mathcal{B}(D)$,然后生成 $S = \mathcal{M}(D^*, \theta)$,其中 $D^*$ 可以是 $D$ 本身或一个结构化表示。

无论采用哪种方法,这些能力的扩展性都不同。建模的难度取决于问题的**结构复杂性**,并且与实例规模无关。无论 $\theta$ 的基数大小如何(例如,一个运输 LP 无论有 5 个还是 500 个供应节点,都需要相同的公式),都必须选择相同的结构。绑定的难度随着**实例规模**而增长,因为每个额外的系数都可能发生转录错误。它们也是经验上可分离的:在固定结构下改变实例规模可以隔离绑定(§4 (https://arxiv.org/html/2605.21751#S4));将数据外部化可以隔离建模(§3.3 (https://arxiv.org/html/2605.21751#S3.SS3))。

### 3.2 数据集创建

见图注

**图 3:** Text2Opt-Bench 生成流程。通过前向工程和求解器验证构建问题,然后用自然语言进行描述。基于模板的插入将语言复杂度与数据规模解耦。

有了这些定义,我们寻求构建一个能测试模型处理建模和绑定能力的数据集。我们并非围绕一个已知解来构建约束(*反向*工程,如 OptMATH 所做(Lu 等人,2025 (https://arxiv.org/html/2605.21751#bib.bib16))),而是采用一个*前向工程*框架(图 3 (https://arxiv.org/html/2605.21751#S3.F3)):(1)模拟一个**世界状态**——业务参数、资源限制和逻辑规则;(2)推导优化结构,并使用优化求解器进行求解 [1];(3)生成一个基于世界状态的自然语言描述。这保证了**构造上的可行性**并产生**语义上真实的**叙述。我们采用两种互补的生成策略:直接翻译和基于模板的插入。

---
**脚注:**

[1]: 在本文中,我们使用 Gurobi,一个标准的求解器包;这一选择与之前的工作(Lu 等人,2025 (https://arxiv.org/html/2605.21751#bib.bib16);Berenbeim 等人,2025 (https://arxiv.org/html/2605.21751#bib.bib2))一致。

---
**注意:** 由于原始文本在“3.2 数据集创建”部分之后被截断,翻译至此。后续章节(如“3.3 评估模式”、“4 实验”等)的翻译将遵循相同原则和格式。

相似文章

嵌入模型如何绑定概念?

Hugging Face Daily Papers

本文探讨了CLIP为何在概念绑定上表现不佳,表明虽然CLIP的绑定函数复杂度高,但受控的Transformer模型可以通过乘法交互学习复杂度较低的绑定函数,从而更好地泛化。

接地鸿沟:大语言模型如何以不同于人类的方式锚定抽象概念的含义

arXiv cs.CL

本研究调查了大语言模型(LLMs)与人类在理解抽象概念时的“接地”(grounding)差异,发现存在显著的“接地鸿沟”:模型过度依赖词语联想,而较少涉及情感或内在状态。作者利用稀疏自编码器(SAEs)识别出与接地维度相关的内部特征,表明LLM虽然具备这些信息,但在自由生成文本时并未像人类一样自然地调用它们。

TabularMath:用大语言模型理解表格上的数学推理

arXiv cs.CL

TabularMath 引入了一个基准和 AutoT2T 框架来评估 LLM 对表格数据的数学推理能力,揭示表格复杂性、数据质量和模态对模型性能的重大影响。该研究通过系统地评估模型对真实场景中不完整或不一致表格信息的鲁棒性,填补了 LLM 评估中的空白。

# 超越目标等价性:基于LLM的车辆路径问题优化建模中的约束注入

arXiv cs.AI

北京航空航天大学与百度的研究人员提出"约束注入"方法——一种用于基于 LLM 的优化建模的双重验证机制,能够检测超出目标等价性范围的虚假约束或遗漏约束。他们开发了 VRPCoder,这是一个 80 亿参数的模型,专门用于将自然语言描述的车辆路径问题转化为 Gurobi 脚本,平均 Pass@1 达到 93%,大幅超越 Claude Sonnet 及此前的运筹学 LLM。