牙科医疗中的大型AI模型：从通用系统到领域专用基础模型

arXiv cs.AI 2026/06/03 04:00 论文

摘要

本系统范围综述审视了牙科医疗中三类大型AI模型：语言生成模型、判别式视觉基础模型和牙科专用基础模型，分析了97项研究，表明通用模型和领域专用模型发挥互补作用，集成流水线优于单一模型方法。

arXiv:2606.02914v1 Announce Type: new 摘要：背景：口腔疾病影响着全球近35亿人，然而大型AI模型在牙科中的临床潜力比较尚不明确。目前出现了三类不同的模型：语言生成模型、判别式视觉基础模型和牙科专用基础模型，但缺乏统一综述来考察它们之间的关系和共同局限性。方法：遵循PRISMA-ScR指南，我们系统检索了四个数据库（PubMed、Google Scholar、Scopus、arXiv），由两名评审员独立筛选。经过纳入/排除标准后，纳入了97项研究（2020-2026年）。我们提出了一个二维分类框架，按架构范式和牙科专业化程度对模型进行分类。结果：语言生成模型在基于文本的任务（临床推理、执照考试、患者沟通）中表现出色，但在依赖图像的诊断中表现不一致。经过适配的SAM和CLIP变体在牙齿分割和病变检测方面取得了强劲结果。牙科专用模型（DentVFM、DentVLM、OralGPT）在复杂多模态任务中表现最强。集成流水线始终优于单一模型方法。观察到数据不对称：牙科专用预训练几乎完全集中在视觉领域，反映了大规模牙科文本语料的稀缺。结论：通用模型和牙科专用模型发挥互补作用；最有效的系统在结构化流水线中结合两者。安全自主部署需要解决三个持续存在的障碍：生成模型中的幻觉、有限的标注牙科数据集以及缺乏标准化的临床评估基准。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:42

# 大型AI模型在牙科医疗中的应用：从通用系统到领域专用基础模型 来源：https://arxiv.org/html/2606.02914

###### 摘要

**背景**。口腔疾病影响着全球近35亿人口，然而，大型AI模型在牙科领域的临床潜力在比较性研究中仍缺乏清晰认识。近年来，三类不同的模型快速发展：语言生成模型、判别式视觉基础模型以及牙科专用基础模型。目前尚无统一的综述来考察这些类别之间的相互关系、它们在哪方面互补或竞争，以及其共同局限性对临床部署意味着什么。

**方法**。遵循PRISMA-ScR指南，我们在四个数据库（PubMed、Google Scholar、Scopus、arXiv）中进行了系统性检索，由两位评审者独立筛选。应用预定义的纳入和排除标准后，最终纳入2020年至2026年间发表的97项研究。我们提出了一个二维分类框架，按架构范式和牙科专业化程度对模型进行组织，并应用该框架批判性地分析模型在临床、教育和影像应用中的性能、方法和局限性。

**结果**。语言生成模型在基于文本的任务（包括临床推理、执照考试和患者沟通）中表现强劲，但在依赖图像的诊断任务中性能不一致。判别式视觉基础模型，特别是经过牙科数据微调的SAM和CLIP变体，在牙齿分割和病变检测方面取得了优异结果。牙科专用基础模型，包括从头预训练的系统（如DentVFM）和深度微调的多模态系统（如DentVLM和OralGPT），在复杂多模态临床任务中表现出最强的性能。在所有类别中，结合多种模型类型的集成流水线始终优于单一模型方法。还观察到数据可用性不对称：牙科专用预训练几乎完全集中在视觉家族，这反映了与影像数据集相比，大型牙科文本语料库的相对稀缺。

**结论**。通用模型和牙科专用模型扮演互补而非竞争的角色，最有效的牙科AI系统在结构化流水线中结合了这两类模型。安全的自主部署仍取决于解决三个持续存在的障碍：生成模型中的幻觉、标注牙科数据集的有限可用性以及标准化临床评估基准的缺失。

###### 关键词: 大语言模型, 基础模型, 牙科AI, 视觉-语言模型, 临床决策支持, 口腔医疗, 系统性范围综述

††期刊: 人工智能在医学中的应用

\affiliation [uaeu] 组织=阿联酋大学信息技术学院计算机科学与软件工程系，城市=艾因，邮编=15551，国家=阿联酋
\affiliation [uos] 组织=沙迦大学牙科医学院口腔与颅面健康科学系，城市=沙迦，国家=阿联酋
\affiliation [wcm] 组织=威尔康奈尔医学-卡塔尔，城市=多哈，州=教育城，国家=卡塔尔
\affiliation [mcgill] 组织=麦吉尔大学牙科医学与口腔健康科学学院，城市=蒙特利尔，州=魁北克，国家=加拿大

## 1. 引言

口腔疾病影响着近35亿人，接近全球人口的一半，使其成为全球最普遍的非传染性疾病[112 (https://arxiv.org/html/2606.02914#bib.bib11)]。这一负担的规模推动了数十年来将人工智能应用于牙科实践的兴趣。然而，早期的努力遇到了一系列持续存在的问题。基于经典机器学习和后来的卷积神经网络构建的模型本质上具有狭隘性：每个模型都需要自己的大型标注数据集，当影像设备或采集协议改变时就会失效，并且无法连接真实临床工作涉及的多类数据类型[61 (https://arxiv.org/html/2606.02914#bib.bib117)]。

基础模型改变了这一问题的条件。这些系统在大型、多样化的语料库上进行预训练，可以通过提示或轻量级微调而不是从头训练来导向新任务。在牙科领域，这使得一系列早期架构无法处理的应用变得可行：临床推理、影像分析、患者沟通和教育评估。图1 (https://arxiv.org/html/2606.02914#S1.F1) 追溯了这一转变在三代牙科AI中的展开过程。

参见图注

图1：牙科实践中AI技术的演进，展示了从早期基于规则和经典机器学习系统，经过深度学习时代，到现代基础模型的发展过程。模型架构、数据利用和学习策略的进步逐步提高了泛化能力、多模态能力以及临床应用的广度。

第一代牙科AI依赖于手工特征输入到支持向量机、决策树和基于规则的专家系统。这些系统在狭窄、定义明确的问题上表现良好，例如咬翼片上的龋齿筛查或牙周状态的基于规则分类，但很难泛化到它们构建条件之外的情况[108 (https://arxiv.org/html/2606.02914#bib.bib119),11 (https://arxiv.org/html/2606.02914#bib.bib120)]。卷积神经网络显著提高了性能天花板，在牙齿检测和编号、根尖周病变识别以及修复体分割等任务上取得了与专家相竞争的结果[105 (https://arxiv.org/html/2606.02914#bib.bib121),61 (https://arxiv.org/html/2606.02914#bib.bib117),64 (https://arxiv.org/html/2606.02914#bib.bib122)]。即便如此，每个应用仍然需要自己的大型标注数据集，当影像硬件或协议改变时性能下降，并且这些模型不提供临床医生可以直接使用的自然语言输出。

向基于Transformer的基础模型的转变更直接地解决了这些局限性：在异构数据上大规模训练，它们支持零样本和少样本迁移，在单个架构中处理多种模态，并通过自然语言进行交互[107 (https://arxiv.org/html/2606.02914#bib.bib123),14 (https://arxiv.org/html/2606.02914#bib.bib118)]。这一时期既产生了通过提示和微调应用于牙科任务的通用模型，也产生了在精选牙科语料库上预训练的领域专用基础模型[37 (https://arxiv.org/html/2606.02914#bib.bib22),48 (https://arxiv.org/html/2606.02914#bib.bib107)]。

尽管该领域已发表大量工作，但仍缺乏对这些模型类别的一致比较性描述。研究大多一次只关注一个类别：在临床问答上评估的LLM、为影像分割适配的视觉基础模型、在狭窄影像任务上基准测试的牙科专用架构[120 (https://arxiv.org/html/2606.02914#bib.bib93),73 (https://arxiv.org/html/2606.02914#bib.bib104),119 (https://arxiv.org/html/2606.02914#bib.bib106)]。这些类别如何相互关联、在哪些方面互补、一个类别在哪些方面优于另一个类别、以及它们的共同局限性对安全部署意味着什么，尚未在单一框架内进行过检验。没有这种视角，要为特定临床应用选择正确的模型类别，或决定何时结合多种方法，就难以基于原则进行。

本综述旨在解决这一问题。我们遵循PRISMA-ScR指南[80 (https://arxiv.org/html/2606.02914#bib.bib125)]对四个主要数据库进行了系统性检索，最终分析了2020年至2026年间发表的97项研究，涵盖临床、教育和影像应用中的通用LLM、视觉-语言模型以及牙科专用基础模型。本工作的目标是：以可重复且透明的方式收集和综合这些文献；提出一个分类方案，根据架构范式和牙科专业化程度组织这些模型类别；批判性地分析和比较它们在应用领域的性能、方法和局限性；并确定这些系统在临床实践中自主部署之前必须解决的开放挑战。

本工作的贡献如下：

- **1. 系统性文献综合**：遵循PRISMA-ScR指南，在四个主要数据库中进行了可重复的检索和筛选，最终纳入97项研究，覆盖2020年至2026年间应用于牙科医疗的各类大型AI模型。
- **2. 分类框架**：一个二维分类体系，按架构范式（生成式 vs. 视觉/多模态）和牙科专业化程度（通用、适配、领域专用）组织大型牙科AI模型，为比较模型类别提供了原则性基础。
- **3. 批判性性能分析**：对所有三个模型类别和多个临床应用领域中报告的模型性能、实验方法和所陈述的局限性进行详细的批判性审查，超越描述性总结，评估报告发现的质量和泛化能力。
- **4. 跨模型互补性**：分析通用模型和牙科专用模型在实践中如何相互作用，证据表明集成多模型流水线在多个任务类别中始终优于单一模型方法。
- **5. 挑战与未来方向**：对当前阻碍临床部署的障碍进行结构化描述，包括生成模型中的幻觉、标注牙科数据的有限可用性以及标准化评估基准的缺失，并针对每个障碍提出具体建议。

## 2. 检索策略与研究选择

本综述旨在识别2020年至2026年初期间在牙科医疗背景下开发、评估或应用大规模AI模型的研究。研究选择过程遵循PRISMA-ScR框架[80 (https://arxiv.org/html/2606.02914#bib.bib125)]，涵盖四个阶段：识别、筛选、合格性评估和纳入。本综述中使用的缩写列表见表8 (https://arxiv.org/html/2606.02914#S8.T8)。

**识别**。在四个数据库（PubMed、Google Scholar、Scopus和arXiv）中进行了全面的文献检索。选择这些数据库以提供互补覆盖：PubMed收录同行评审的临床和生物医学文献；arXiv确保包含尚未正式发表的最新AI预印本；Scopus和Google Scholar则在工程、计算机科学和健康信息学领域提供广泛的跨学科覆盖。检索策略聚焦于三个主要领域：牙科应用中的大语言模型、牙科医疗中的多模态和视觉-语言模型，以及牙科专用基础模型。检索词通过布尔运算符（AND, OR）在三个类别中组合，以捕捉所有相关工作。AI模型术语包括”大语言模型”、”GPT”、”ChatGPT”、”Claude”、”Gemini”、”基础模型”、”视觉-语言模型”、”多模态模型”、”SAM”、”Segment Anything Model”、”Transformer”、”BERT”和”视觉Transformer”。牙科相关术语包括”牙科”、”牙医学”、”口腔健康”、”牙齿”、”口腔”、”牙周”、”正畸”、”牙髓”、”口腔外科”、”颌面”、”龋齿”、”全景X线片”、”CBCT”和”牙科影像”。应用相关术语包括”诊断”、”检测”、”分割”、”分类”、”临床决策支持”、”治疗规划”、”教育”和”患者沟通”。

**筛选**。初始检索在四个数据库中识别出1,129条记录。去除重复后，剩余823篇论文。由两位评审者（S.H.和R.D.）独立使用预定义的纳入和排除标准进行标题和摘要筛选。分歧通过讨论和共识解决。研究如果调查、开发、评估或应用了牙科或口腔健康背景下的大规模基础模型，则被认为符合条件。符合条件的研究类型包括2020年至2026年间发表的原创研究、技术报告、验证研究和比较研究，且语言为英文。如果研究是综述论文、初步研究、与牙科无关，或者仅关注传统机器学习或常规深度学习而无基础模型组件，则被排除。此阶段后，剩余214篇论文。

**合格性评估**。剩余的214项研究由两位评审者（S.H.和R.D.）独立进行全文筛选。在尝试全文检索后，有30篇报告因全文不可用或受限而无法获取，剩余184项研究进行评估。如果论文报告了无法评估或不够严格的模型性能评估（n=25），缺乏明确直接的牙科应用（n=22），或者与已纳入工作重复或重叠（n=34），则被排除。样本量过小无法进行有意义的性能评估的研究（n=6）也被排除。此阶段的任何分歧通过讨论解决，若无法达成共识则咨询第三位评审者。

**数据提取**。使用标准化表格从每项纳入研究中提取数据，包括：研究目标、模型类型和架构、牙科应用领域、数据集特征、评估指标、关键结果以及报告的局限性。提取由S.H.执行并由R.D.验证。差异通过讨论解决。

**质量评估**。未对个别研究进行正式的质量评估。根据范围综述的JBI方法，其目的是描绘现有证据而非评估其质量，因此质量评估被视为超出本综述范围。个别研究的方法学局限性将在相关结果部分以叙述方式注明。

**纳入研究**。应用这些标准后，最终分析纳入97篇论文，如图2 (https://arxiv.org/html/2606.02914#S2.F2) 中的PRISMA流程图所示。

参见图注

图2：PRISMA 2020流程图，总结了系统性的研究识别、筛选、合格性评估和纳入过程。从四个数据库检索记录，去除重复项，剩余研究由两位评审者（S.H.和R.D.）基于预定义的纳入和排除标准独立筛选。

用于按架构范式和牙科专业化程度组织这97项研究的分类框架将在下一节描述。

## 3. 牙科医疗中大型AI模型的概念框架

对牙科医疗中的大型AI模型进行分类并非易事。这些系统在数据处理方式、输出内容以及与牙科知识的关联紧密程度上各不相同。本综述并非试图在所有可能维度上进行详尽的分类，而是沿着最能解释差异的两条轴线组织第2节 (https://arxiv.org/html/2606.02914#S2) 中识别的97项研究。

牙科医疗中的大型AI模型：从通用系统到领域专用基础模型

相似文章

基于Transformer的语言模型在垂直领域中的应用：架构、应用与批判性评估

大型基础模型中的视听智能

衡量关键指标：医疗保健中生成式、多模态及智能体AI的基准测试

Aloe-Vision：面向医疗的鲁棒视觉-语言模型

技能增强型AI代理在医学研究分析中的应用：一项NSCLC转录组生物标志物任务中的探索性多模型人类评估

提交意见反馈