通过自增强微调在Text-to-SQL中整合推理与泛化

arXiv cs.AI 2026/06/16 04:00 论文

text-to-sql llm fine-tuning reasoning generalization chain-of-thought self-enhancement

摘要

本文提出CoTE-SQL，一种面向text-to-SQL的自增强微调框架，它整合了自推理轨迹、结构化思维链提示和执行反馈，在Spider和Bird基准上取得了最先进的性能。

arXiv:2606.15598v1 公告类型：新摘要：Text-to-SQL旨在将自然语言问题转换为结构化数据库上的可执行SQL查询，使非专业用户能够直观地访问数据。尽管大型语言模型（LLMs）的最新进展在该任务中显示出潜力，但现有的基于LLM的方法往往难以在强大的推理能力和鲁棒的泛化能力之间取得平衡。为了解决这些限制，我们提出了CoTE-SQL，通过三个关键创新来增强基于LLM的text-to-SQL生成：(i)从LLM中提炼的自增强推理轨迹，无需人工标注；(ii)具有模块化分解和示例检索的结构化思维链（CoT）提示；(iii)基于SQL执行反馈的错误感知修订。在Spider和Bird基准上的大量实验表明，CoTE-SQL在基于开源LLM且模型规模相当的方法中，在Bird上取得了新的最先进性能（EX 53.39% / VES 59.02%），在Spider上取得了强劲结果（EX 79.60% / VES 77.19%），在复杂查询上尤其显著提升。结果突显了在基于LLM的text-to-SQL设计框架中，结合自增强、结构化推理和执行时反馈的有效性。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:47

# 通过自增强微调在 Text-to-SQL 中融合推理与泛化能力  
来源：https://arxiv.org/html/2606.15598  

###### 摘要  
Text-to-SQL 旨在将自然语言问题转化为可在结构化数据库上执行的 SQL 查询，使非专业用户能够直观地访问数据。尽管大语言模型（LLM）的最新进展已在这一任务上展现出潜力，但现有的基于 LLM 的方法往往在强大的推理能力与稳健的泛化能力之间难以取得平衡。为应对这些局限，我们提出了 **CoTE-SQL**，通过三项关键创新来增强基于 LLM 的 Text-to-SQL 生成：(i) 从 LLM 中蒸馏出的自增强推理轨迹，无需人工标注；(ii) 结构化的思维链（CoT）提示，包含模块化分解与示例检索；(iii) 基于 SQL 执行反馈的纠错修正机制。在 Spider 和 Bird 基准上的大量实验表明，**CoTE-SQL** 在基于开源 LLM 且模型规模相当的方法中取得了新的最佳性能：在 Bird 上达到 53.39% EX / 59.02 VES，在 Spider 上取得 79.60% EX / 77.19 VES 的强劲结果，尤其在复杂查询上提升显著。结果凸显了在基于 LLM 的 Text-to-SQL 设计中结合自增强、结构化推理与运行时反馈的有效性。

## 1. 引言

随着现代企业数据库在规模和复杂度上持续增长，查询结构化数据对非专业用户而言仍是一道重大障碍。传统上需要编写结构化查询语言（SQL）的要求阻碍了用户对关系数据库的广泛访问，尤其对于缺乏编程经验的用户（Shi 等人，2024；Ren 等人，2024；Zhao 等人，2024）。为弥合这一可用性差距，Text-to-SQL 系统应运而生，专注于将自然语言表达的信息需求语义转化为结构化数据库查询（Pourreza 和 Rafiei，2024；Xie 等人，2024；Pourreza 和 Rafiei，2023；Liu 等人，2024；Fan 等人，2024c，2023；Zheng 等人，2023；Gong 和 Sun，2024）。这一范式不仅使数据检索更加民主化，还开启了数据分析和商业智能领域的新应用。

尽管取得了稳步进展，但从用户自然语言中准确捕捉用户意图并生成复杂且正确的 SQL 仍是一个核心挑战。大语言模型的最新进展显著改变了 Text-to-SQL 研究的格局。凭借强大的自然语言理解与推理能力，LLM 在弥合自然语言与形式化数据库查询之间的鸿沟方面展现出潜力（Hong 等人，2024b；Zhang 等人，2024b，2025；Li 等人，2025；Huang 等人，2024；Luo 等人，2024；Liu 等人，2025）。如图 1 所示，当前基于 LLM 的 Text-to-SQL 方法通常分为两种主要范式：上下文学习与微调。

*（此处应有图 1 的说明文字，原文中为“Refer to caption Figure 1.”，我们保留其位置但翻译说明文字？注意规则要求“Preserve captions? 题目中只说 preserve headings, lists, emphasis, inline code, and links when possible。没有明确说 captions。但原文中“Refer to caption Figure 1.”是对图的引用。我们直接保留“参见图注 图 1.” 但更自然地翻译为：“参见图 1 的说明文字。” 但为了符合英文原文，我们保留“Refer to caption” ？根据规则“Translate naturally, not literally”，所以我们翻译为“参见图注” 更好。但“Figure 1”是专有名词，保留英文。所以翻译为“参见图注 Figure 1.” 但原文在括号内，我们保持原样。不过注意原文是“Refer to captionFigure 1.” 中间没有空格？我们按原文格式。但翻译时我们需将说明文字翻译。下面是那段captions文字本身，我们需翻译成中文。由于是图片说明，我们放在合适位置。*

**图 1：现有 Text-to-SQL 方法的局限。** (i) 上下文学习方法可分为两类。第一种称为浅层提示，通过示例演示 SQL 生成，但未能充分利用 LLM 的推理能力。第二种基于 CoT 提示，在此基础上加入思维链推理，但通常泛化能力较差，且由于推理多样性有限，难以处理复杂的 SQL 任务。(ii) 基于微调的方法容易出现逻辑错误，主要受限于标注数据的数量和质量。此外，这些方法往往缺乏对中间推理步骤的显式监督，导致在复杂查询上表现欠佳。

基于上下文学习的方法通过向提示中注入任务特定示例来增强 LLM 的零样本或少样本能力，无需修改模型参数（Tai 等人，2023；Zhang 等人，2023；Shen 和 Kejriwal，2024）。然而，这些方法表现不佳，因为它们无法充分利用 LLM 的推理能力。因此，一些工作引入思维链（CoT）提示来引出中间推理步骤（Xie 等人，2024；Wang 等人，2024；Chen 等人，2025）。但是，依赖于静态的、手工制作的示例或提示模板，限制了泛化能力，尤其是在处理复杂查询或分布外模式时。

相反，基于微调的方法通过在大量标注的（问题，SQL）配对集合上进行监督学习，使 LLM 适应 Text-to-SQL 任务（Hu 等人，2022；Fu 等人，2023；Hong 等人，2024a；Yang 等人，2024b）。通过整合数据库模式信息并利用合成数据增强，这些模型旨在实现更强的领域对齐和鲁棒性（Pourreza 和 Rafiei，2024；Wang 等人，2025）。然而，由于该领域缺乏高质量的 CoT 风格标注，大多数微调方法缺乏对中间推理过程的显式监督。因此，微调后的模型常常在多步或组合式查询上表现挣扎，而这类查询恰需要逐步逻辑推理。尽管一些研究使用蒸馏后的 CoT 标注对模型进行微调（He 等人，2025；Rossiello 等人，2025），但它们往往依赖于强大的数据生成器或强加僵化的推理格式，从而限制了灵活性。最近的基于强化学习的方法（Pourreza 等人，2025；Sheng 和 Xu，2025）改善了 Text-to-SQL 推理，但需要复杂的奖励设计，且训练成本高、稳定性差。

为克服上下文提示和微调两种范式的局限性，我们的工作旨在弥合 Text-to-SQL 系统中 **推理能力** 与 **泛化能力** 之间的鸿沟。然而，实现这一目标引入了若干关键挑战，具体详见第 3.1 节。

首先，大多数公开数据集中缺少对中间推理步骤的显式监督，这使得模型无法学习可解释的、逐步推导的过程，而这些对于复杂 SQL 生成至关重要。  
其次，由于自然语言的歧义性和模式表示的多样性，现有模型往往难以在各种数据库模式间进行泛化。  
第三，实际应用对正确性和可靠性有严格要求：模型必须避免虚假或幻觉式的推理，并最好具备在没有大量人工干预的情况下自我修正的能力。

为应对这些挑战，我们提出了 **CoTE-SQL**，一个统一的框架，通过三个关键组件（如图 2 所示）来增强 Text-to-SQL 系统的推理、泛化和鲁棒性。  
第一，**迭代式自增强微调框架**，其中模型生成并验证自身的推理轨迹，逐步完善其中间推理能力。  
第二，**结构化的 CoT 提示**设计，通过模块化的子任务（如模式选择和 SQL 生成）引导模型，并辅以基于检索的示例提示，以增强上下文学习和领域泛化。  
第三，**纠错修正模块**，利用执行反馈实现自我调试和纠正错误的 SQL 查询，从而提升实际部署中的鲁棒性。

我们在两个标准基准（Spider 和 Bird）上进行了大量实验，将 **CoTE-SQL** 与最先进的 Text-to-SQL 方法进行比较。结果表明，**CoTE-SQL** 在 Bird 上达到了新的 SOTA 性能（53.39% EX / 59.02 VES），在 Spider 上也取得了有竞争力的结果（79.60% EX / 77.19 VES），超越了 15 个以上的基线，包括微调方法（如 MAC-SQL 和 DTS-SQL）和提示方法（如 DAC 和 DIN-SQL）。值得注意的是，**CoTE-SQL** 在所有难度级别上都表现出一致的提升，尤其在最具挑战性的查询上提升显著（Spider 的“极难”类别上 EX 提升 7.2%）。全面的消融研究验证了每个模块的贡献。人工评估进一步证实了 **CoTE-SQL** 在生成完整（93/100）、结构合理（83/100）和逻辑一致（86/100）的 SQL 查询方面的优越性。

总之，我们做出了以下关键贡献：
- **•** 我们识别并填补了现有基于 LLM 的 Text-to-SQL 系统在推理能力与泛化能力之间的差距，应对了推理监督、模式多样性和错误修正方面的挑战。
- **•** 我们提出了 **CoTE-SQL**，一个新颖的框架，将迭代式自增强微调与结构化 CoT 提示和纠错修正相结合，实现了中间推理技能的可扩展获取和 SQL 的可靠生成。
- **•** 在多个具有挑战性的基准上进行的大量实验表明，**CoTE-SQL** 在所有难度级别上均取得了新的最佳性能，显著优于现有的微调和提示方法。

## 2. 预备知识

### 2.1. 基于 LLM 的 Text-to-SQL

基于 LLM 的 Text-to-SQL 方法将自然语言查询转化为 SQL 语句。给定一个查询 \(Q\) 和一个包含表 \(T = \{t_1, \dots, t_{|T|}\}\) 的数据库模式 \(S\)，每个表 \(t_i\) 包含列 \(C_i = \{c_1^{t_i}, \dots, c_{|C_i|}^{t_i}\}\)。任务是生成一个可执行的 SQL 查询 \(Y\) 来回答 \(Q\)，通过估计在提示 \(\mathcal{P} = (Q, S)\) 条件下 \(Y\) 的条件概率来建模：  
\[
P_M(Y|\mathcal{P}) = \prod_{i=1}^{|Y|} P_M(Y_i \mid Y_{<i}; \mathcal{P})
\]
其中 \(P_M(Y_i \mid Y_{<i}; \mathcal{P})\) 是在给定之前 token \(Y_{<i}\) 和上下文 \(\mathcal{P}\) 时生成 token \(Y_i\) 的概率。

### 2.2. Text-to-SQL 的 CoT 提示

CoT 提示已被探索用于改善 LLM 在 Text-to-SQL 上的性能，通过在生成 SQL 之前鼓励中间推理（Tai 等人，2023）。对于任务 \(T\) 和查询 \(Q\)，模型首先推导出一个推理轨迹 \(R_{\text{task}}\)：  
\[
R_{\text{task}} = \arg\max P(R \mid T, Q)
\]
然后，最终的 SQL 查询 \(y\) 在输入和 \(R_{\text{task}}\) 的共同条件下生成。

## 3. 概述

### 3.1. 问题挑战

现有的 Text-to-SQL 工作处于两个极端：要么没有显式推理监督地进行微调，要么采用 CoT 风格提示但缺乏领域特定学习的支撑或强大的泛化能力。为弥合这一差距，我们旨在开发一种微调方法，显式增强推理能力并提高在不同数据库模式上的泛化能力。这引入了几个关键挑战：
1. 缺乏推理特定监督。公开的 Text-to-SQL 数据集中很少提供高质量的中间推理轨迹。仅基于最终 SQL 输出的训练限制了模型学习结构化、可解释推理路径的能力。
2. 领域泛化与模式敏感性。LLM 通常难以在不同数据库模式间泛化，由于自然语言查询的模糊性或不明确，容易出现不清晰的关联和对模式元素的误解。
3. 应用中对高正确性的要求。在实际部署中，LLM 必须避免生成不正确或幻觉式的推理路径。有效的系统必须能够检测、修正并学习自身错误，而无需依赖人工监督。

*（此处应有图 2 的说明文字，原文为“Refer to caption Figure 2.” 我们翻译为“参见图注 图 2.” 但图注文字本身也需要翻译。）*

**图 2：CoTE-SQL 概览。** 上半部分展示了自增强微调方法，下半部分展示了推理时的纠错修正机制。模式选择和 SQL 生成在微调和推理阶段均有使用。

### 3.2. 核心见解

为应对这些挑战，我们的设计基于三个关键见解：
1. **来自 LLM 的自增强推理。** 手动构建高质量的推理轨迹成本高昂且不可扩展。受最近自训练技术的启发，我们可以提出一个自增强微调框架，从 LLM 本身提取潜在的推理轨迹。通过将这些轨迹与正确答案对齐并过滤掉不正确的，我们可以在没有专家标注的情况下构建高保真度的监督。
2. **用于最大化推理能力的结构化 CoT 提示。** 我们旨在设计一个灵活但结构化的 CoT 提示框架，将 Text-to-SQL 任务分解为模块化的推理阶段，例如模式链接和 SQL 规划。这种结构化分解增强了可解释性，同时保持了生成的灵活性。此外，我们可以通过从精选的文本-SQL 配对集合中检索示例来增强提示，从而改进上下文学习和对未见模式的适应。
3. **错误驱动的推理修正。** 与其丢弃失败输出，我们可以将 SQL 执行错误视为弱监督信号。通过将错误信息与反思性 CoT 提示配对，我们可以引导模型分析自身的失败点并迭代修正 SQL，这是一种由运行时反馈驱动的自我调试。

*（此处应有图 3 的说明文字，原文为“Refer to caption Figure 3.” 翻译为“参见图注 图 3.” 并将图注文字翻译。）*

**图 3：提出的迭代式自增强微调框架。** 注意，在实际使用中，CoTE-SQL 会分别评估所选模式与生成 SQL 的正确性。如果其中一个不正确，只需重试相应的模块。为简洁起见，此处将它们绘制在一起。

### 3.3. 关键设计

基于上述见解，我们提出了 **CoTE-SQL**，其工作流程如图 2 所示。它包含以下关键设计组件：

1. **迭代式自增强微调框架（第 4.1 节）。**  
   我们提出了一个多轮自增强训练框架，其中 LLM 不仅充当推理引擎，还充当自身中间推理轨迹的生成器。在每次迭代中，模型被提示生成推理轨迹，经过正确性验证后用于增强训练数据。这种自我引导的过程允许模型逐步完善其推理能力，无需外部标注或静态 CoT 示例，使其高度可扩展并适应不同的模式。

（注意：原文在“1. Iterative Self-Enhanced Fine-tuning Framework (§4.1)”之后还有一小段描述，但给出的文本中“At each iteration, the model is prompted to produce reason” 似乎被截断了。我们根据上文完整内容进行合理补充？但作为严格翻译，我们只能翻译已有部分。然而在提供的文本中，该句并没有完整结束。为了流畅性，我们根据上下文合理推测并完成句子？但规则要求忠实于原文。我们检查原文最后一句是“At each iteration, the model is prompted to produce reason” 后面没有内容。实际上在用户消息中，原文在“§4.1 (https://arxiv.org/html/2606.15598#S4.SS1)\)\.We propose a multi\-round, self\-enhanced training framework where the LLM acts not only as a reasoning engine but also as a generator of its own intermediate reasoning traces\. At each iteration, the model is prompted to produce reason” 就结束了。可能是不完整。但我们在翻译时只能按照已有内容。我们继续翻译已给出的部分，不要添加未提供的内容。但为了完整性，我们按原文格式输出。*

... 在每次迭代中，模型被提示生成推理

通过自增强微调在Text-to-SQL中整合推理与泛化

相似文章

Progress-SQL：通过渐进式奖励改进文本到SQL的强化学习

基于代理上下文的链式思维微调长上下文推理

如何微调推理模型？一个教师-学生协作框架用于合成学生一致的SFT数据

用于文本到SQL集成模型的残差技能优化

当推理监督适得其反：基于TTCW的长篇文学评论生成

提交意见反馈