面向低资源开源Text-to-SQL模型的知识蒸馏

arXiv cs.CL 2026/05/25 04:00 论文

text-to-sql knowledge-distillation low-resource open-source data-synthesis schema-encoding

摘要

本文提出了一种知识感知的Text-to-SQL框架，利用知识蒸馏在低资源环境下通过构建任务特定的知识库并生成合成训练数据来提升性能。在七个基准上的实验表明，该方法带来了显著的改进，尤其是对于开源模型。

arXiv:2605.22843v1 公告类型：新摘要：Text-to-SQL将自然语言问题转换为可执行的SQL查询，使非技术用户能够访问关系数据库以进行分析和智能数据服务。在真实场景中，性能常受限于低资源环境，高质量标注的\texttt{<question, SQL>}对稀缺，特别是在特定领域数据库中。其他挑战包括不透明的模式定义、缩写以及未在模式中显式编码的隐含业务逻辑。现有的数据合成和提示技术提高了覆盖率，但往往无法生成与数据库约束对齐的任务特定、语义扎实的示例。为了解决这些问题，我们提出了一种知识感知的Text-to-SQL框架，该框架构建包括模式语义、缩写、业务逻辑和查询模式在内的任务特定知识库，并将其注入训练和推理中。该框架生成多样化的、上下文相关的合成训练数据，并通过目标知识检索增强推理。在涵盖通用和特定领域数据集的七个基准上的实验表明，我们的方法显著提升了开源和闭源大语言模型在Text-to-SQL任务中的性能，尤其是在低资源领域特定设置中，增强了泛化能力、鲁棒性和适应性。

查看原文

查看缓存全文

缓存时间: 2026/05/25 08:54

# 面向低资源开源文本到SQL模型的知识蒸馏 来源：https://arxiv.org/html/2605.22843 田浩邱 深圳大学 深圳，中国 2310275033@email\.szu\.edu\.cn &陈晓军 深圳大学 深圳，中国 xjchen@szu\.edu\.cn ###### 摘要 文本到SQL将自然语言问题转换为可执行的SQL查询，使非技术用户能够访问关系数据库进行分析和智能数据服务。在现实场景中，性能常受限于低资源环境——高质量标注对稀缺，尤其针对特定领域数据库。此外，还存在模式定义不透明、缩写及未在模式中显式编码的隐含业务逻辑等挑战。现有数据合成和提示技术提升了覆盖率，但往往无法生成与数据库约束对齐的、语义上 grounded 的任务特定示例。为应对这些挑战，我们提出一个知识感知的文本到SQL框架，该框架构建包含模式语义、缩写、业务逻辑和查询模式的任务特定知识库，并将其注入训练和推理过程。该框架生成多样化、上下文接地（grounded）的合成训练数据，并通过针对性知识检索增强推理。在七个基准上的实验（涵盖通用和领域特定数据集）表明，我们的方法显著提升了开源和闭源大语言模型在文本到SQL任务中的性能，尤其在低资源领域特定设置下，增强了泛化性、鲁棒性和适应性。 面向低资源开源文本到SQL模型的知识蒸馏 田浩邱深圳大学深圳，中国2310275033@email\.szu\.edu\.cn陈晓军深圳大学深圳，中国xjchen@szu\.edu\.cn ## 1 引言 文本到SQL是自然语言处理中的一项基础任务，旨在将自然语言问题转换为可执行的SQL查询。通过充当非技术用户与关系数据库之间的桥梁，它实现了对结构化数据的直观且可扩展的访问，支撑着商业分析、智能数据服务和报表等应用。然而，在遵循关系模式的严格语法和语义约束的同时，准确将用户意图映射到SQL仍是一项核心挑战(Qin et al. (2022 (https://arxiv.org/html/2605.22843#bib.bib41)); Katsogiannis-Meimarakis and Koutrika (2023 (https://arxiv.org/html/2605.22843#bib.bib52)))。现实世界中文本到SQL的一个关键挑战是低资源设置——即给定任务的标注对数量有限，尤其对于无法利用专有数据（因隐私限制）的开源模型。近期工作通过数据合成策略试图缓解这一局限。基于规则的方法（使用语法和模板）(Yu et al. (2018a (https://arxiv.org/html/2605.22843#bib.bib119)); Wu et al. (2021 (https://arxiv.org/html/2605.22843#bib.bib114)))以及基于LLM的方法（利用提示工程）(Li et al. (2024a (https://arxiv.org/html/2605.22843#bib.bib97)); Yang et al. (2024 (https://arxiv.org/html/2605.22843#bib.bib98)); Li et al. (2025 (https://arxiv.org/html/2605.22843#bib.bib123)))扩展了训练覆盖范围。然而，这些方法主要生成通用样本，往往无法产生任务特定、语义接地（grounded）的示例，导致与真实世界数据库约束的对齐较差(Pourreza and Rafiei (2023 (https://arxiv.org/html/2605.22843#bib.bib81)); Wang et al. (2022 (https://arxiv.org/html/2605.22843#bib.bib76)))。为解决此问题，我们提出一个框架，将结构化、任务特定的知识从闭源LLM蒸馏到开源模型中。该框架捕获领域术语以及编码了问题与模式元素之间语义关系的SQL查询模式。随后利用这些知识合成高质量、接地（grounded）的训练示例以进行微调，并在推理时提供任务相关上下文，增强模型对复杂查询的推理能力。通过将闭源模型的隐含理解迁移到开源模型，我们的框架即使在低资源设置下也能实现更准确、上下文感知且可执行的SQL生成。我们的主要贡献如下： 1. **结构化知识构建**：我们开发了一种系统的方法来构建任务特定知识，包括模式知识、领域术语和SQL查询模式。这包括提取领域术语以及构建SQL模式图（SQL Pattern Graph）的算法，该图捕捉问题类型与SQL骨架之间的重复关系。 2. **知识感知的训练与推理**：利用构建的知识，我们使用LLM合成多样且语义准确的（question, SQL）对以进行微调，并在推理时检索相关模式、领域和查询模式知识以指导推理。这种统一的方法在低资源和领域特定设置中提高了泛化性、上下文感知能力以及SQL生成的准确性。 3. **广泛评估**：我们在七个基准上进行了全面实验，涵盖通用和领域特定数据集。结果表明，我们的框架一致地提升了开源和闭源LLM的性能，凸显了结构化知识在现实世界文本到SQL任务中对泛化性、可解释性和适应性的价值。 ## 2 相关工作 ### 2.1 文本到SQL 早期的文本到SQL解决方案主要基于规则或模板驱动(Li and Jagadish (2014 (https://arxiv.org/html/2605.22843#bib.bib77)); Mahmud et al. (2015 (https://arxiv.org/html/2605.22843#bib.bib78)))，依赖手工制定的规则或SQL模板将自然语言转换为查询。虽然对简单场景有效，但由于僵化和模板设计劳动密集，它们难以扩展到复杂、多领域的设置。诸如WikiSQL(Zhong et al. (2017 (https://arxiv.org/html/2605.22843#bib.bib47)))、Spider(Yu et al. (2018b (https://arxiv.org/html/2605.22843#bib.bib26)))、KaggleDBQA(Lee et al. (2021 (https://arxiv.org/html/2605.22843#bib.bib28)))和BIRD(Li et al. (2023c (https://arxiv.org/html/2605.22843#bib.bib14)))等基准数据集后来支持了更真实、多表和跨领域的研究。随着深度学习的兴起，文本到SQL被重新定义为序列到序列问题。编码器-解码器架构(Cai et al. (2018 (https://arxiv.org/html/2605.22843#bib.bib64)); Popescu et al. (2022 (https://arxiv.org/html/2605.22843#bib.bib46)); Qi et al. (2022 (https://arxiv.org/html/2605.22843#bib.bib72)))，结合注意力机制(Liu et al. (2023b (https://arxiv.org/html/2605.22843#bib.bib45)))、基于图的模式表示(Xu et al. (2018 (https://arxiv.org/html/2605.22843#bib.bib42)); Li et al. (2023b (https://arxiv.org/html/2605.22843#bib.bib35)); Zheng et al. (2022 (https://arxiv.org/html/2605.22843#bib.bib61)); Wang et al. (2020 (https://arxiv.org/html/2605.22843#bib.bib60)))以及语法感知解码(Guo et al. (2019 (https://arxiv.org/html/2605.22843#bib.bib65)); Scholak et al. (2021 (https://arxiv.org/html/2605.22843#bib.bib71)); Li et al. (2023a (https://arxiv.org/html/2605.22843#bib.bib91)); Wang et al. (2022 (https://arxiv.org/html/2605.22843#bib.bib76)))成为主流。表格语言模型如TaBERT(Yin et al. (2020 (https://arxiv.org/html/2605.22843#bib.bib79)))进一步支持了文本和模式的联合建模。尽管有这些进展，训练此类模型仍然昂贵，且领域适应具有挑战性。最近，大语言模型（LLM），如GPT(OpenAI (2023b (https://arxiv.org/html/2605.22843#bib.bib5), a (https://arxiv.org/html/2605.22843#bib.bib6)))和LLaMA(Touvron et al. (2023a (https://arxiv.org/html/2605.22843#bib.bib10), b (https://arxiv.org/html/2605.22843#bib.bib7)))，展示了卓越的文本到SQL能力。出现了三种主要范式：监督微调（SFT）(Sun et al. (2023 (https://arxiv.org/html/2605.22843#bib.bib21)))，使用标注对更新模型参数；上下文内学习（ICL）(Dong et al. (2023 (https://arxiv.org/html/2605.22843#bib.bib40)); Nan et al. (2023 (https://arxiv.org/html/2605.22843#bib.bib19)); Liu et al. (2023a (https://arxiv.org/html/2605.22843#bib.bib13)); Gao et al. (2023 (https://arxiv.org/html/2605.22843#bib.bib2)))，依赖精心设计的提示而不修改模型参数；以及强化学习（RL）(Shao et al. (2024 (https://arxiv.org/html/2605.22843#bib.bib143)); Pourreza et al. (2025 (https://arxiv.org/html/2605.22843#bib.bib145)); Ma et al. (2025 (https://arxiv.org/html/2605.22843#bib.bib147)))，利用反馈直接优化模型行为，提高鲁棒性和与复杂目标的对齐。 参考图注 图1：我们提出的用于文本到SQL任务的知识增强框架。 ### 2.2 数据合成 数据合成方法旨在自动生成额外的（问题，SQL）对，以增强训练覆盖率、查询多样性和模型鲁棒性。早期基于规则的方法包括：模板驱动生成，将手动制作或从数据库派生的SQL模板转换为问题(Guo et al. (2018 (https://arxiv.org/html/2605.22843#bib.bib124)); Hu et al. (2023 (https://arxiv.org/html/2605.22843#bib.bib117)); Li et al. (2024a (https://arxiv.org/html/2605.22843#bib.bib97)))；基于语法的生成，通过AST或语法构建SQL并将其转换为自然语言(Wu et al. (2021 (https://arxiv.org/html/2605.22843#bib.bib114)); Wang et al. (2021 (https://arxiv.org/html/2605.22843#bib.bib115)); Zhang et al. (2023 (https://arxiv.org/html/2605.22843#bib.bib116)))；槽填充，用模式元素或值填充可重用模板(Yu et al. (2018a (https://arxiv.org/html/2605.22843#bib.bib119)); Weir et al. (2020 (https://arxiv.org/html/2605.22843#bib.bib120)); Yu et al. (2021 (https://arxiv.org/html/2605.22843#bib.bib121)); Li et al. (2024a (https://arxiv.org/html/2605.22843#bib.bib97)))，但通常产生重复或不自然的措辞；以及使用现有模型的问题到SQL方法，先生成问题再预测SQL，可能引入噪声(Yang et al. (2021 (https://arxiv.org/html/2605.22843#bib.bib118)))。基于规则的方法虽能确保结构正确性，但常难以扩展以应对语义多样性。基于LLM的合成已越来越多地利用上下文内学习，配合SQL模板、控制提示和精选示例。例如，Pourreza等人(Pourreza et al. (2024 (https://arxiv.org/html/2605.22843#bib.bib103)))从Spider中选择SQL模板来指导生成；Yang等人(Yang et al. (2024 (https://arxiv.org/html/2605.22843#bib.bib98)))通过表数量控制SQL难度；Li等人(Li et al. (2025 (https://arxiv.org/html/2605.22843#bib.bib123)))合成多样化的数据库，并系统地生成具有可控复杂度和语言风格的QA对。然而，由于LLM基于从广泛预训练数据中学到的通用模式生成示例，它们可能缺乏针对特定目标数据库的领域接地（domain grounding）。这可能导致与模式的语法或语义不匹配，以及与真实世界约束的对齐不佳(Pourreza and Rafiei (2023 (https://arxiv.org/html/2605.22843#bib.bib81)); Wang et al. (2022 (https://arxiv.org/html/2605.22843#bib.bib76)))。 ## 3 动机 外部知识在复杂的文本到SQL任务中至关重要，有助于模型解释用户意图、与数据库模式对齐并生成有效的查询。我们将此类知识分为三类：1) **模式知识**：数据库结构，包括表/列名、值格式和关系，实现准确的模式链接；2) **领域知识**：任务特定的概念、术语和计算逻辑，允许对派生指标或表达式进行推理；3) **SQL查询模式图**：一个捕获典型推理模式的规范SQL模板的结构化表示，建模从问题意图到SQL逻辑的映射，包括诸如子查询、连接和聚合等结构。闭源LLM可能固有地捕获了部分此类知识，而开源模型往往完全缺乏。为解决此问题，我们提出一个统一的知识蒸馏框架（图1 (https://arxiv.org/html/2605.22843#S2.F1)），通过三阶段流程构建、验证和应用知识。从模式文档、问题-SQL对和查询聚类中提取的原始知识首先经过一个轻量级LLM模块结合专家交叉验证进行过滤和规范化。验证后的知识被组织成四个单向表，包括用于领域术语的T\mathcal{T}和SQL查询模式图G\mathcal{G}。该知识库支持：(i) 知识增强的上下文内学习（KE-ICL），丰富提示并减少歧义；(ii) 知识增强的强化学习（KE-RL），生成多样化、符合模式的训练数据以提高模型鲁棒性。 ## 4 知识构建 我们用于文本到SQL的知识构建框架包含四个阶段：(i) 模式知识增强，通过澄清的名称和描述增强模式语义；(ii) 领域术语构建，将领域特定术语映射到SQL逻辑；(iii) SQL查询模式图构建，构建查询骨架模式的图；(iv) 知识后处理，验证和组织知识以用于上下文感知的SQL生成。每个阶段的细节描述如下。 ### 4.1 模式知识增强 模式知识可以通过领域专家和大语言模型（LLM）的结合来增强。LLM推断超出原始模式定义的元数据，为表和列名生成人类可读的注释，澄清缩写，并解释编码值以增强语义透明度。例如，在`california_schools`数据库中，表`frpm`可被注释为“免费和减价餐计划统计”，`capacity`为“可用座位数”，`dob`为“出生日期”。类似地，`M/F`在`gender_code`中的值级映射被解释为“男”和“女”。领域专家可以进一步验证和优化这些注释，以确保准确性和一致性。通过将底层模式结构与自然语言理解桥接起来，这种增强的模式知识提高了模型对数据库语义的理解，从而实现更准确和上下文感知的SQL生成。 ### 4.2 领域术语构建 该阶段从数据库列构建领域特定术语，详见附录C (https://arxiv.org/html/2605.22843#A3)中的算法1 (https://arxiv.org/html/2605.22843#alg1)。每个列首先被编码为语义嵌入并聚类成代表相关概念的组。然后通过从两个簇中各采样一个术语并与采样的操作符或符号（op）组合来生成候选术语。每个候选由一个大语言模型（LLM）验证，该模型提供有效性标签、置信度分数和一个可选的自由文本解释。收集有效术语，并根据置信度分数选择前K个术语。这种方法高效地探索了列组合的空间，同时确保语义多样性、可解释性和高质量的领域术语。 ### 4.3 SQL模式图（SQL Pattern Graph）构建 [原文在此处截断，但根据上下文，应继续描述SQL模式图的构建。由于输入不完整，我们只翻译到此处。]

面向低资源开源Text-to-SQL模型的知识蒸馏

相似文章

SQuaD-SQL: 利用LLM引导的知识蒸馏实现小型语言模型的高效文本到SQL

TAKE: 面向文本数据集蒸馏的轨迹感知知识估计

KDFlow：面向大语言模型的用户友好且高效的知识蒸馏框架

通过合成数据蒸馏实现高效的金融语言理解

用于文本到SQL集成模型的残差技能优化

提交意见反馈