SANE:面向生物数据的模式感知自然语言评估框架

arXiv cs.CL 论文

摘要

SANE 是一种新颖的模式感知评估范式,专为生物/药理学数据集的自然语言(文本转SQL)查询而设计,能够基于真实实验模式自动生成基准测试。研究表明,采用结构化提示的少样本 LLM 无需微调即可实现准确的 SQL 生成,大多数失败案例源于输入歧义,而非查询生成错误。

arXiv:2606.04500v1 论文类型:新论文 摘要:高通量显微镜能够生成大规模结构化数据集,记录细胞对药理学扰动的响应,但访问这些数据集通常需要具备 SQL 专业知识。大型语言模型提供了一种自然语言替代方案,然而其幻觉倾向引发了对结果可靠性的担忧。 我们提出 SANE(模式感知自然语言评估),这是一种面向特定领域文本转 SQL 评估的新颖范式:基于模式构建、与真实具体实验结构绑定、可自动生成基准测试。SANE 使评估更具可扩展性、系统性和可复现性。 利用 SANE,我们对一个少样本大型语言模型进行了评估,结果表明:在受约束的模式下,结合结构化提示与安全护栏,无需任何模型训练或微调即可实现准确的查询生成。大多数失败案例源于输入模糊或描述不足,表现为过于谨慎的澄清请求,或对本应先消歧的查询直接作答,而非生成错误的 SQL。这些结果表明,当少样本大型语言模型与模式感知提示相结合时,在定义明确的领域中能够提供可靠的数据库访问能力。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:14

# SANE——面向生物数据的模式感知自然语言评估框架
来源:https://arxiv.org/html/2606.04500

Rolf Gattung,卡尔斯鲁厄理工学院(KIT)自动化与应用信息学研究所(IAI),地址:Hermann-von-Helmholtz-Platz 1, 76344 Eggenstein-Leopoldshafen, Germany。邮箱:[email protected];Markus Reischl

###### 摘要

高通量显微成像能够生成大规模结构化数据集,用于捕捉细胞对药理扰动的响应,但访问这些数据集通常需要具备 SQL 专业知识。大语言模型提供了一种自然语言交互的替代方案,然而其幻觉倾向对结果可靠性构成了隐患。

我们提出 **SANE**(Schema-Aware Natural-language Evaluation,模式感知自然语言评估),这是一种面向领域特定文本到 SQL 评估的新型范式:基于模式的、自动生成的基准测试集,与真实且具体的实验结构相绑定。SANE 使评估更具可扩展性、系统性和可复现性。

借助 SANE,我们对一个少样本大语言模型进行了评估,结果表明,在受约束的数据库模式下,结合结构化提示词与保护机制,无需任何模型训练或微调,即可实现准确的查询生成。大多数失败案例源于输入存在歧义或语义不明确,表现为过于谨慎的澄清请求,或对应先进行消歧处理的查询直接给出答案,而非生成错误的 SQL。这些结果表明,当与模式感知提示相结合时,少样本大语言模型可以在定义明确的领域中提供可靠的数据库访问能力。

## 1 引言

利用自动化显微镜进行高通量药物筛选,可以系统地分析多种细胞系、化合物及不同浓度水平下的细胞响应。这些实验会生成结构化数据集,其中包含原始测量值和派生分析值,如 EC50、药物敏感性评分及形态学描述符。

Cell-Profiler \[4\] 等平台提供了处理、存储和可视化此类数据集的基础设施。然而,有效的数据访问仍是一项重大挑战,因为此类工具中可用的视图十分有限,而查询数据库不仅需要 SQL 专业知识,还需要熟悉复杂的数据库模式。

大语言模型(LLM)通过支持与结构化数据的自然语言交互,提供了一种颇具前景的解决方案。文本到 SQL 的研究已从早期的神经解析器(如 Seq2SQL \[21\] 和 SQLNet \[17\])发展到具备模式感知和基于图的模型(如 RAT-SQL \[16\]、PICARD \[13\] 和 LGESQL \[3\])。大型预训练模型(如 T5 \[12\])进一步推动了结构化数据自然语言接口的发展。近期关于鲁棒 LLM 框架 \[14\] 以及提示策略(如 DIN-SQL \[11\] 和 DAIL-SQL \[6\])的研究,通过任务分解和迭代优化展示了改进的零样本和少样本性能,但模型仍可能产生幻觉并出现错误 \[8, 1\]。

WikiSQL \[21\]、Spider \[19\]、BIRD \[10\] 等基准测试集,以及 CoSQL \[18\] 和 SParC \[20\] 等对话扩展版本,评估了跨领域泛化能力、多表推理能力和多轮交互能力。然而,这些数据集主要关注人工编写的查询和通用模式,对于具有固定实验结构的领域特定生物医学数据库,测试覆盖仍严重不足。

与此不同,我们专注于直接从底层数据库和实验设计中自动生成基于模式的评估查询,从而实现针对领域特定生物数据集的可扩展、可复现基准测试。在本文中,我们评估了一个定制化 LLM 研究助手,该助手使用 4 位量化的 LlaMA 3.1 模型查询 PostgreSQL 数据库,无需任何训练或微调。LLM 和数据库已集成到一个计划公开发布的 Web 应用程序中。我们在此介绍 **SANE**,这是一个能从高通量药物响应数据库中系统地推导出真实、基于模式的测试查询的定制框架,用于严格评估。我们的主要贡献包括:

- 一个用于在高通量生物数据上对文本到 SQL 系统进行领域特定基准测试的可扩展框架
- 一项包含 572 个非平凡自动生成查询的大规模评估,这些查询来源于真实实验
- 对鲁棒性和失败模式的深入分析,确认自然语言中的歧义是错误的主要来源

## 2 系统背景

**图 1:** 高通量实验的层级数据集结构。每个数据集包含多个细胞系,这些细胞系使用相同的药物以相同的浓度范围进行处理。每个实验条件下获取多张图像复制物。

在高通量显微成像(如药物筛选)中,数据集通常遵循如图 1 所示的层级实验设计。实验涵盖一个或多个细胞系,每个细胞系在不同浓度下针对多种药物进行测试。每个条件下采集多张图像复制物,以反映标准药物筛选协议。我们的 Web 应用从这些图像中提取形态学特征,并计算派生统计量(EC50、剂量-响应曲线、敏感性评分),将其存储在关系型数据库中。

为查询这些数据,我们可以使用文本到 SQL 的 LLM。本文中,我们评估了在配备 48 GB 显存的单张 NVIDIA A6000 GPU 上使用 vLLM \[9\] 运行的量化 Llama 3.1 \[7\] 模型。关键在于,该模型以少样本模式运行,不进行任何训练或微调。先前的研究已证明了少样本 LLM 的能力 \[5, 2, 15\]。LLM 可以理解关于剂量-响应实验的自然语言查询,生成 SQL 语句,并从底层关系型数据库中检索结构化数据。例如,对于"我拥有多少个数据集?"这个问题,模型会生成类似 `SELECT COUNT(*) FROM datasets d WHERE d.owner_id = user_id` 的查询,执行后返回该用户的数据集数量。

**图 2:** 三阶段 LLM 处理流水线。首先,模型判断是否有足够的上下文来回答查询。若上下文**充分**,则生成并执行 SQL 查询,随后将结果解释为自然语言响应;若上下文**缺失**,则触发澄清请求。

如图 2 所示,LLM 通过三个阶段将自然语言查询转换为 SQL。首先,LLM 被要求判断是否提供了足够的上下文来回答查询,输出一个二值标签(缺失/充分)。若标签为**缺失**,则返回澄清请求;否则,使用 LLM 通过模式感知提示生成 SQL 语句。返回的数据库结果随后通过另一次 LLM 推理进行解释,转化为自然语言回答、项目符号列表或表格。

在 SQL 生成方面,模式感知提示词会注入数据库结构、领域术语、过滤规则(如排除边缘伪影)以及数据集特定的上下文和示例,以引导生成过程。LLM 和数据库被视为固定组件,我们的重点是在真实场景下系统评估其准确性、鲁棒性和局限性。

## 3 SANE

**图 3:** SANE 基准测试生成流程。对数据库进行系统查询,以提取模式结构和实验内容。生成测试查询及对应的真实 SQL。通过将预测的上下文分类(充分 vs. 缺失)和生成的 SQL 执行结果与真实值进行对比,对 LLM 进行评估。

SANE 是一个框架,能够直接从数据库内容和实验结构中系统地生成自然语言查询及对应的真实 SQL 语句(图 3)。该框架对来自真实实验的已有数据库进行查询,以提取模式信息和代表性数据实例。

基于这些信息,SANE 构建涵盖多个复杂度层次的查询,包括简单检索、复杂分析查询和多步交互。此外,它还引入受控扰动,如拼写错误、缩写和缺失上下文,以模拟真实的用户交互场景。

每个类别生成的查询以随机抽取的真实数据(如药物名称)填充,并且易于扩展。相应的 SQL 生成并非易事,需要正确处理层级关系、领域特定术语以及数据集范围界定等隐式约束。

我们定义了 69 个细粒度查询类别及对应的 SQL 语句,完整内容已在[补充材料](https://bwsyncandshare.kit.edu/s/NadxeGj8PYisQWZ)中提供,连同基准测试集和 LLM 代码一并发布。为便于说明,我们将问题分为六个顶层类别:

**简单**查询涉及直接检索,例如:"HUH7 细胞在 10μM Alvocidib 处理下的面积是多少?"

**复杂**查询需要连接、聚合、排名或列举操作,例如:"MCF7 在圆度特征上,DSS 评分最高的 5 种药物是哪些?"

**错误**类别包含带有缩写、拼写错误或不一致表述的查询,例如:"HUH7 在 0.02 uM 的 9-IN-41 处理下的平均面积是多少?"——其中正确的药物名称应为 9-ING-41。

**无上下文**查询语义不明确,会返回过大的结果集。例如,"MCF7 在面积特征上的 EC50 是多少?"会检索所有药物的值,应先进一步细化。

**多步**查询代表具有信息增量细化的对话场景,例如在前述场景的后续消息中指定药物名称。

**模式**查询请求跨表的结构化信息,例如:"药物 9-ING-41 对应多少行浓度数据?"

对于向 LLM 提出的每个问题,我们将预测的上下文标签(缺失或充分)与真实标签进行比较。对于**缺失**类查询,正确性由标签一致性决定。对于**充分**类查询,正确性还要求生成的 SQL 执行结果与参考结果相匹配(结果集等价性)。

该评估联合评估了模型解释查询意图的能力,以及生成与数据库模式一致的可执行 SQL 的能力。

## 4 结果与讨论

本次评估共包含 **572** 个自动生成的测试用例,涵盖不同的数据库模式和统计属性。表 1 汇总了少样本模式下各类别的性能表现。

**表 1:** 按查询类型分组的评估结果。

少样本系统的总体准确率达到 **97.2%**,在无需任何训练或微调的情况下,在检索、复杂分析和模式感知任务中均表现出可靠的性能。**简单**、**复杂**和**模式**相关问题的准确率分别高达 100%、98.4% 和 96.9%。在**无上下文**、**错误**和**多步**类别中,LLM 表现略差,准确率分别为 81.8%、86.1% 和 85.7%。这一高准确率是通过领域特定的示例驱动提示以及限制 LLM 的任务范围来实现的。在零样本条件下,仅依赖简单模式注入,总体准确率下降至 29.9%。

在表 1 列出的 16 个少样本失败案例中,有 10 个涉及**缺失**上下文标签的错误预测,通常源于未知同义词或对语义不明确查询的误解。这可能是由于模型主要专注于为定义明确的查询生成准确的 SQL。当引入错误或缺失上下文时,由此产生的不确定性导致查询生成不准确或上下文标签分类错误。有 5 个案例中,生成的 SQL 略有错误,例如在列举时遗漏药物标识符,或对过于宽泛的问题直接作答而非请求澄清。有 1 个问题被错误地解读为与数据无关,从而触发了 Web 应用的通用拒答回复(问:Trametinib 在面积特征上的平均 EC50 是多少?答:我很乐意提供帮助!请随时询问您的数据或应用程序相关问题。)。然而,上述分析表明,SQL 生成在实际使用中的有效错误率低于基准测试所反映的水平,因为大多数失败案例是由于上下文标签预测错误或遗漏名称,而非数值计算错误。

结果表明,我们的少样本 LLM 在结合模式感知提示和领域特定约束后,能够高可靠地查询复杂的生物数据库,验证了其作为研究助手的可用性。

值得注意的是,性能在很大程度上依赖于结构化提示和模式知识。若缺乏领域特定术语和示例,LLM 将无法可靠地生成有效查询。这强调了提示工程在无需模型训练的情况下部署 LLM 于专业数据库接口时的关键作用。

失败分析表明,未来的改进应优先考虑交互式查询细化和消歧处理,而非模型微调,因为从结果来看,模型在处理缺失上下文和模糊问题时的表现更差,而非在准确的文本到 SQL 生成上表现不佳。大多数错误源于模糊或错误的用户输入,这表明对话式澄清机制将显著提升实际可用性。此外,同义词扩展和领域特定实体识别也有助于减少上下文分类错误。

这种方法通过纯提示工程显著降低了访问高通量生物数据的门槛。通过同时消除对 SQL 专业知识和模型训练的需求,研究人员可以直接对实验结果进行交互式查询,从而加速假设生成和数据驱动发现。

## 5 结论

我们对一个定制化领域特定 LLM 接口进行了系统评估,该接口用于对生物数据库进行自然语言查询。我们的框架 **SANE** 能够从实验设计中自动生成真实、基于模式的测试用例,从而实现全面且可复现的评估。

在 572 个查询上,仅凭提示工程即实现了 97.2% 的准确率,无需任何训练或微调,系统展现出强劲的性能。这凸显了其在受约束、领域特定环境中实际应用的潜力,尤其是在可靠提取数值方面。对于那些原本需要定制脚本或软件、且不提供便捷交互式数据访问的大型数据库(如高通量实验数据库)而言,这一点尤为有价值。

相似文章

利用生成式AI拓宽交通安全数据获取渠道:一种基于模式框架的空间自然语言查询方法

arXiv cs.CL

本文提出了一种基于模式框架的自然语言接口,用于交通安全分析。该接口利用大型语言模型解释用户查询,同时保持对权威数据库的确定性执行。该框架在马萨诸塞州交通安全数据库上进行了评估,成功执行了所有查询,并在29%的案例中纠正了错误,展示了拓宽安全数据获取渠道的实用方法。

用于模式约束临床信息抽取的检索增强型大语言模型

arXiv cs.CL

本文提出了一种模块化的检索增强生成(RAG)流水线,用于从护理人员与患者的对话转录中提取结构化临床观察结果,采用模式约束提示和第二遍审核,基于Llama和GPT骨干模型,取得了80.36%的F1分数。

FD-NL2SQL:反馈驱动的临床NL2SQL系统,使用中不断改进

arXiv cs.CL

FD-NL2SQL是一个反馈驱动的自然语言转SQL系统,专门用于临床肿瘤学数据库,通过临床医生编辑和基于逻辑的SQL增强实现持续学习。该系统将自然语言问题分解为谓词,检索专家验证的范例,并综合可执行的SQL,具备持续学习能力。