通过自增强微调在Text-to-SQL中整合推理与泛化
摘要
本文提出CoTE-SQL,一种面向text-to-SQL的自增强微调框架,它整合了自推理轨迹、结构化思维链提示和执行反馈,在Spider和Bird基准上取得了最先进的性能。
arXiv:2606.15598v1 公告类型:新
摘要:Text-to-SQL旨在将自然语言问题转换为结构化数据库上的可执行SQL查询,使非专业用户能够直观地访问数据。尽管大型语言模型(LLMs)的最新进展在该任务中显示出潜力,但现有的基于LLM的方法往往难以在强大的推理能力和鲁棒的泛化能力之间取得平衡。为了解决这些限制,我们提出了CoTE-SQL,通过三个关键创新来增强基于LLM的text-to-SQL生成:(i)从LLM中提炼的自增强推理轨迹,无需人工标注;(ii)具有模块化分解和示例检索的结构化思维链(CoT)提示;(iii)基于SQL执行反馈的错误感知修订。在Spider和Bird基准上的大量实验表明,CoTE-SQL在基于开源LLM且模型规模相当的方法中,在Bird上取得了新的最先进性能(EX 53.39% / VES 59.02%),在Spider上取得了强劲结果(EX 79.60% / VES 77.19%),在复杂查询上尤其显著提升。结果突显了在基于LLM的text-to-SQL设计框架中,结合自增强、结构化推理和执行时反馈的有效性。
查看缓存全文
缓存时间: 2026/06/16 11:47
# 通过自增强微调在 Text-to-SQL 中融合推理与泛化能力
来源:https://arxiv.org/html/2606.15598
###### 摘要
Text-to-SQL 旨在将自然语言问题转化为可在结构化数据库上执行的 SQL 查询,使非专业用户能够直观地访问数据。尽管大语言模型(LLM)的最新进展已在这一任务上展现出潜力,但现有的基于 LLM 的方法往往在强大的推理能力与稳健的泛化能力之间难以取得平衡。为应对这些局限,我们提出了 **CoTE-SQL**,通过三项关键创新来增强基于 LLM 的 Text-to-SQL 生成:(i) 从 LLM 中蒸馏出的自增强推理轨迹,无需人工标注;(ii) 结构化的思维链(CoT)提示,包含模块化分解与示例检索;(iii) 基于 SQL 执行反馈的纠错修正机制。在 Spider 和 Bird 基准上的大量实验表明,**CoTE-SQL** 在基于开源 LLM 且模型规模相当的方法中取得了新的最佳性能:在 Bird 上达到 53.39% EX / 59.02 VES,在 Spider 上取得 79.60% EX / 77.19 VES 的强劲结果,尤其在复杂查询上提升显著。结果凸显了在基于 LLM 的 Text-to-SQL 设计中结合自增强、结构化推理与运行时反馈的有效性。
## 1. 引言
随着现代企业数据库在规模和复杂度上持续增长,查询结构化数据对非专业用户而言仍是一道重大障碍。传统上需要编写结构化查询语言(SQL)的要求阻碍了用户对关系数据库的广泛访问,尤其对于缺乏编程经验的用户(Shi 等人,2024;Ren 等人,2024;Zhao 等人,2024)。为弥合这一可用性差距,Text-to-SQL 系统应运而生,专注于将自然语言表达的信息需求语义转化为结构化数据库查询(Pourreza 和 Rafiei,2024;Xie 等人,2024;Pourreza 和 Rafiei,2023;Liu 等人,2024;Fan 等人,2024c,2023;Zheng 等人,2023;Gong 和 Sun,2024)。这一范式不仅使数据检索更加民主化,还开启了数据分析和商业智能领域的新应用。
尽管取得了稳步进展,但从用户自然语言中准确捕捉用户意图并生成复杂且正确的 SQL 仍是一个核心挑战。大语言模型的最新进展显著改变了 Text-to-SQL 研究的格局。凭借强大的自然语言理解与推理能力,LLM 在弥合自然语言与形式化数据库查询之间的鸿沟方面展现出潜力(Hong 等人,2024b;Zhang 等人,2024b,2025;Li 等人,2025;Huang 等人,2024;Luo 等人,2024;Liu 等人,2025)。如图 1 所示,当前基于 LLM 的 Text-to-SQL 方法通常分为两种主要范式:上下文学习与微调。
*(此处应有图 1 的说明文字,原文中为“Refer to caption Figure 1.”,我们保留其位置但翻译说明文字?注意规则要求“Preserve captions? 题目中只说 preserve headings, lists, emphasis, inline code, and links when possible。没有明确说 captions。但原文中“Refer to caption Figure 1.”是对图的引用。我们直接保留“参见图注 图 1.” 但更自然地翻译为:“参见图 1 的说明文字。” 但为了符合英文原文,我们保留“Refer to caption” ?根据规则“Translate naturally, not literally”,所以我们翻译为“参见图注” 更好。但“Figure 1”是专有名词,保留英文。所以翻译为“参见图注 Figure 1.” 但原文在括号内,我们保持原样。不过注意原文是“Refer to captionFigure 1.” 中间没有空格?我们按原文格式。但翻译时我们需将说明文字翻译。下面是那段captions文字本身,我们需翻译成中文。由于是图片说明,我们放在合适位置。*
**图 1:现有 Text-to-SQL 方法的局限。** (i) 上下文学习方法可分为两类。第一种称为浅层提示,通过示例演示 SQL 生成,但未能充分利用 LLM 的推理能力。第二种基于 CoT 提示,在此基础上加入思维链推理,但通常泛化能力较差,且由于推理多样性有限,难以处理复杂的 SQL 任务。(ii) 基于微调的方法容易出现逻辑错误,主要受限于标注数据的数量和质量。此外,这些方法往往缺乏对中间推理步骤的显式监督,导致在复杂查询上表现欠佳。
基于上下文学习的方法通过向提示中注入任务特定示例来增强 LLM 的零样本或少样本能力,无需修改模型参数(Tai 等人,2023;Zhang 等人,2023;Shen 和 Kejriwal,2024)。然而,这些方法表现不佳,因为它们无法充分利用 LLM 的推理能力。因此,一些工作引入思维链(CoT)提示来引出中间推理步骤(Xie 等人,2024;Wang 等人,2024;Chen 等人,2025)。但是,依赖于静态的、手工制作的示例或提示模板,限制了泛化能力,尤其是在处理复杂查询或分布外模式时。
相反,基于微调的方法通过在大量标注的(问题,SQL)配对集合上进行监督学习,使 LLM 适应 Text-to-SQL 任务(Hu 等人,2022;Fu 等人,2023;Hong 等人,2024a;Yang 等人,2024b)。通过整合数据库模式信息并利用合成数据增强,这些模型旨在实现更强的领域对齐和鲁棒性(Pourreza 和 Rafiei,2024;Wang 等人,2025)。然而,由于该领域缺乏高质量的 CoT 风格标注,大多数微调方法缺乏对中间推理过程的显式监督。因此,微调后的模型常常在多步或组合式查询上表现挣扎,而这类查询恰需要逐步逻辑推理。尽管一些研究使用蒸馏后的 CoT 标注对模型进行微调(He 等人,2025;Rossiello 等人,2025),但它们往往依赖于强大的数据生成器或强加僵化的推理格式,从而限制了灵活性。最近的基于强化学习的方法(Pourreza 等人,2025;Sheng 和 Xu,2025)改善了 Text-to-SQL 推理,但需要复杂的奖励设计,且训练成本高、稳定性差。
为克服上下文提示和微调两种范式的局限性,我们的工作旨在弥合 Text-to-SQL 系统中 **推理能力** 与 **泛化能力** 之间的鸿沟。然而,实现这一目标引入了若干关键挑战,具体详见第 3.1 节。
首先,大多数公开数据集中缺少对中间推理步骤的显式监督,这使得模型无法学习可解释的、逐步推导的过程,而这些对于复杂 SQL 生成至关重要。
其次,由于自然语言的歧义性和模式表示的多样性,现有模型往往难以在各种数据库模式间进行泛化。
第三,实际应用对正确性和可靠性有严格要求:模型必须避免虚假或幻觉式的推理,并最好具备在没有大量人工干预的情况下自我修正的能力。
为应对这些挑战,我们提出了 **CoTE-SQL**,一个统一的框架,通过三个关键组件(如图 2 所示)来增强 Text-to-SQL 系统的推理、泛化和鲁棒性。
第一,**迭代式自增强微调框架**,其中模型生成并验证自身的推理轨迹,逐步完善其中间推理能力。
第二,**结构化的 CoT 提示**设计,通过模块化的子任务(如模式选择和 SQL 生成)引导模型,并辅以基于检索的示例提示,以增强上下文学习和领域泛化。
第三,**纠错修正模块**,利用执行反馈实现自我调试和纠正错误的 SQL 查询,从而提升实际部署中的鲁棒性。
我们在两个标准基准(Spider 和 Bird)上进行了大量实验,将 **CoTE-SQL** 与最先进的 Text-to-SQL 方法进行比较。结果表明,**CoTE-SQL** 在 Bird 上达到了新的 SOTA 性能(53.39% EX / 59.02 VES),在 Spider 上也取得了有竞争力的结果(79.60% EX / 77.19 VES),超越了 15 个以上的基线,包括微调方法(如 MAC-SQL 和 DTS-SQL)和提示方法(如 DAC 和 DIN-SQL)。值得注意的是,**CoTE-SQL** 在所有难度级别上都表现出一致的提升,尤其在最具挑战性的查询上提升显著(Spider 的“极难”类别上 EX 提升 7.2%)。全面的消融研究验证了每个模块的贡献。人工评估进一步证实了 **CoTE-SQL** 在生成完整(93/100)、结构合理(83/100)和逻辑一致(86/100)的 SQL 查询方面的优越性。
总之,我们做出了以下关键贡献:
- **•** 我们识别并填补了现有基于 LLM 的 Text-to-SQL 系统在推理能力与泛化能力之间的差距,应对了推理监督、模式多样性和错误修正方面的挑战。
- **•** 我们提出了 **CoTE-SQL**,一个新颖的框架,将迭代式自增强微调与结构化 CoT 提示和纠错修正相结合,实现了中间推理技能的可扩展获取和 SQL 的可靠生成。
- **•** 在多个具有挑战性的基准上进行的大量实验表明,**CoTE-SQL** 在所有难度级别上均取得了新的最佳性能,显著优于现有的微调和提示方法。
## 2. 预备知识
### 2.1. 基于 LLM 的 Text-to-SQL
基于 LLM 的 Text-to-SQL 方法将自然语言查询转化为 SQL 语句。给定一个查询 \(Q\) 和一个包含表 \(T = \{t_1, \dots, t_{|T|}\}\) 的数据库模式 \(S\),每个表 \(t_i\) 包含列 \(C_i = \{c_1^{t_i}, \dots, c_{|C_i|}^{t_i}\}\)。任务是生成一个可执行的 SQL 查询 \(Y\) 来回答 \(Q\),通过估计在提示 \(\mathcal{P} = (Q, S)\) 条件下 \(Y\) 的条件概率来建模:
\[
P_M(Y|\mathcal{P}) = \prod_{i=1}^{|Y|} P_M(Y_i \mid Y_{<i}; \mathcal{P})
\]
其中 \(P_M(Y_i \mid Y_{<i}; \mathcal{P})\) 是在给定之前 token \(Y_{<i}\) 和上下文 \(\mathcal{P}\) 时生成 token \(Y_i\) 的概率。
### 2.2. Text-to-SQL 的 CoT 提示
CoT 提示已被探索用于改善 LLM 在 Text-to-SQL 上的性能,通过在生成 SQL 之前鼓励中间推理(Tai 等人,2023)。对于任务 \(T\) 和查询 \(Q\),模型首先推导出一个推理轨迹 \(R_{\text{task}}\):
\[
R_{\text{task}} = \arg\max P(R \mid T, Q)
\]
然后,最终的 SQL 查询 \(y\) 在输入和 \(R_{\text{task}}\) 的共同条件下生成。
## 3. 概述
### 3.1. 问题挑战
现有的 Text-to-SQL 工作处于两个极端:要么没有显式推理监督地进行微调,要么采用 CoT 风格提示但缺乏领域特定学习的支撑或强大的泛化能力。为弥合这一差距,我们旨在开发一种微调方法,显式增强推理能力并提高在不同数据库模式上的泛化能力。这引入了几个关键挑战:
1. 缺乏推理特定监督。公开的 Text-to-SQL 数据集中很少提供高质量的中间推理轨迹。仅基于最终 SQL 输出的训练限制了模型学习结构化、可解释推理路径的能力。
2. 领域泛化与模式敏感性。LLM 通常难以在不同数据库模式间泛化,由于自然语言查询的模糊性或不明确,容易出现不清晰的关联和对模式元素的误解。
3. 应用中对高正确性的要求。在实际部署中,LLM 必须避免生成不正确或幻觉式的推理路径。有效的系统必须能够检测、修正并学习自身错误,而无需依赖人工监督。
*(此处应有图 2 的说明文字,原文为“Refer to caption Figure 2.” 我们翻译为“参见图注 图 2.” 但图注文字本身也需要翻译。)*
**图 2:CoTE-SQL 概览。** 上半部分展示了自增强微调方法,下半部分展示了推理时的纠错修正机制。模式选择和 SQL 生成在微调和推理阶段均有使用。
### 3.2. 核心见解
为应对这些挑战,我们的设计基于三个关键见解:
1. **来自 LLM 的自增强推理。** 手动构建高质量的推理轨迹成本高昂且不可扩展。受最近自训练技术的启发,我们可以提出一个自增强微调框架,从 LLM 本身提取潜在的推理轨迹。通过将这些轨迹与正确答案对齐并过滤掉不正确的,我们可以在没有专家标注的情况下构建高保真度的监督。
2. **用于最大化推理能力的结构化 CoT 提示。** 我们旨在设计一个灵活但结构化的 CoT 提示框架,将 Text-to-SQL 任务分解为模块化的推理阶段,例如模式链接和 SQL 规划。这种结构化分解增强了可解释性,同时保持了生成的灵活性。此外,我们可以通过从精选的文本-SQL 配对集合中检索示例来增强提示,从而改进上下文学习和对未见模式的适应。
3. **错误驱动的推理修正。** 与其丢弃失败输出,我们可以将 SQL 执行错误视为弱监督信号。通过将错误信息与反思性 CoT 提示配对,我们可以引导模型分析自身的失败点并迭代修正 SQL,这是一种由运行时反馈驱动的自我调试。
*(此处应有图 3 的说明文字,原文为“Refer to caption Figure 3.” 翻译为“参见图注 图 3.” 并将图注文字翻译。)*
**图 3:提出的迭代式自增强微调框架。** 注意,在实际使用中,CoTE-SQL 会分别评估所选模式与生成 SQL 的正确性。如果其中一个不正确,只需重试相应的模块。为简洁起见,此处将它们绘制在一起。
### 3.3. 关键设计
基于上述见解,我们提出了 **CoTE-SQL**,其工作流程如图 2 所示。它包含以下关键设计组件:
1. **迭代式自增强微调框架(第 4.1 节)。**
我们提出了一个多轮自增强训练框架,其中 LLM 不仅充当推理引擎,还充当自身中间推理轨迹的生成器。在每次迭代中,模型被提示生成推理轨迹,经过正确性验证后用于增强训练数据。这种自我引导的过程允许模型逐步完善其推理能力,无需外部标注或静态 CoT 示例,使其高度可扩展并适应不同的模式。
(注意:原文在“1. Iterative Self-Enhanced Fine-tuning Framework (§4.1)”之后还有一小段描述,但给出的文本中“At each iteration, the model is prompted to produce reason” 似乎被截断了。我们根据上文完整内容进行合理补充?但作为严格翻译,我们只能翻译已有部分。然而在提供的文本中,该句并没有完整结束。为了流畅性,我们根据上下文合理推测并完成句子?但规则要求忠实于原文。我们检查原文最后一句是“At each iteration, the model is prompted to produce reason” 后面没有内容。实际上在用户消息中,原文在“§4.1 (https://arxiv.org/html/2606.15598#S4.SS1)\)\.We propose a multi\-round, self\-enhanced training framework where the LLM acts not only as a reasoning engine but also as a generator of its own intermediate reasoning traces\. At each iteration, the model is prompted to produce reason” 就结束了。可能是不完整。但我们在翻译时只能按照已有内容。我们继续翻译已给出的部分,不要添加未提供的内容。但为了完整性,我们按原文格式输出。*
... 在每次迭代中,模型被提示生成推理相似文章
Progress-SQL:通过渐进式奖励改进文本到SQL的强化学习
Progress-SQL 提出了一种多轮强化学习框架,采用渐进式奖励用于文本到SQL,利用 Oracle 引导的诊断树提供密集的奖励信号,并在 BIRD 和 Spider 等基准上改进 SQL 查询生成。
基于代理上下文的链式思维微调长上下文推理
提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。
如何微调推理模型?一个教师-学生协作框架用于合成学生一致的SFT数据
本文介绍了TESSY,一种用于微调推理模型的教师-学生协作框架。该框架通过将生成过程解耦为能力令牌(来自教师)和风格令牌(来自学生),生成符合在线策略的SFT数据,从而解决了使用离线策略教师数据时的灾难性遗忘问题。
用于文本到SQL集成模型的残差技能优化
DivSkill-SQL是一个残差技能优化框架,无需模型微调即可构建互补的智能体文本到SQL集成模型,通过针对当前集成模型失败的示例进行优化,在Spider2-Lite上将选定准确率提升高达+11.1个百分点。
当推理监督适得其反:基于TTCW的长篇文学评论生成
本文构建了一个包含263,911篇长篇小说的大型数据集,这些故事通过基于TTCW的创造力指标进行了标注,并对Qwen3模型进行微调以生成结构化的评论报告。研究发现,非推理微调优于推理监督微调,后者容易出现解析失败和不相关的重复。