迈向下一代医疗：医学具身AI在感知、决策与行动方面的综述

arXiv cs.AI 2026/06/16 04:00 论文

survey medical embodied-ai healthcare perception decision-making foundation-models

摘要

本文系统地综述了医学具身AI的核心组成部分，强调了在临床环境中感知、决策与行动的协同整合，并回顾了代表性应用、数据集及未来研究方向。

arXiv:2606.15647v1 公告类型：新摘要：基础模型在广泛的医疗应用中展现了提升医疗效率的优异性能。然而，它们在感知、理解和与物理世界交互方面的能力有限，这显著限制了它们在真实世界临床工作流程中的有效性，在这些流程中，安全关键的决策和物理执行紧密耦合。最近，具身人工智能（AI）作为一种有前景的物理交互范式出现，用于智能医疗，使代理能够在复杂的医疗环境中操作。随着该领域研究的迅速扩展，理解智能代理如何在临床环境中作为集成的端到端系统运行变得越来越关键。然而，现有关于医学具身AI的综述主要强调单个方面或功能组件，缺乏对该领域统一的系统级组织。为了支持和巩固最新进展，我们系统地综述了医学具身AI的核心组成部分，特别强调了感知、决策和行动的协同整合。我们进一步回顾了代表性的医疗应用和相关数据集，并分析了在真实临床实践中遇到的主要挑战。最后，我们讨论了这一快速发展的领域未来研究的关键方向。相关项目可在 https://github.com/VMVLab/Medical_Embodied_AI_Paper_List 找到。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:47

# 迈向下一代医疗保健：面向感知、决策与行动的医学具身AI综述  
来源: https://arxiv.org/html/2606.15647  

张程，蔡青， , 吴兴政，杨勋，常晓军，鲍秉坤， , 聂礼强， , 刘新旺， , 杨怡  

张程和吴兴政在中国海洋大学信息科学与工程学院，青岛，山东 266100，中国 \(e\-mail: zhangcheng@stu\.ouc\.edu\.cn, wuxingzheng@stu\.ouc\.edu\.cn\)。蔡青在合肥工业大学人工智能创新学院，合肥 230009，中国 \(e\-mail: caiqing1617@gmail\.com\)。杨勋和常晓军在中国科学技术大学信息科学与技术学院，合肥 230026，中国 \(e\-mail: xyang21@ustc\.edu\.cn, xjchang@ustc\.edu\.cn\)。鲍秉坤在合肥工业大学计算机与信息工程学院，合肥 230009，中国 \(e\-mail: bingkunbao@hfut\.edu\.cn\)。聂礼强在哈尔滨工业大学（深圳）计算机科学与技术学院，深圳 518055，中国 \(e\-mail: nieliqiang@gmail\.com\)。刘新旺在国防科技大学计算机学院，长沙 410073，中国 \(e\-mail: xinwangliu@nudt\.edu\.cn\)。杨怡在浙江大学CCAI ReLER实验室，浙江 310027，中国 \(e\-mail: yangyics@zju\.edu\.cn\)。  

###### 摘要  

基础模型在广泛的医疗应用中展现了提升医疗效率的显著能力。然而，它们在物理世界中的感知、理解和交互能力有限，这严重限制了其在真实临床工作流程中的有效性，因为安全关键的决策与物理执行紧密耦合。近年来，具身人工智能（Embodied AI）作为一种有前景的物理交互范式，使智能体能够在复杂的医疗环境中运作。随着该领域研究的迅速扩展，理解智能体如何在临床环境中作为集成的端到端系统运行变得日益关键。然而，现有的医学具身AI综述大多侧重于个别方面或功能组件，缺乏对该领域统一的系统级组织。为了总结并整合最新进展，我们系统地综述了医学具身AI的核心组件，特别强调感知、决策与行动的协调整合。我们还回顾了代表性的医疗应用和相关数据集，并分析了在真实临床实践中遇到的主要挑战。最后，我们讨论了这一快速发展领域的未来研究关键方向。相关项目可访问 https://github\.com/VMVLab/Medical\_Embodied\_AI\_Paper\_List。  

## I. 引言  

参见标题说明  
图1：医学具身人工智能框架概览。医学具身智能体通过感知-决策-行动循环与模拟和真实临床环境交互。  

人工智能（AI）在医学中的广泛采用显著提升了临床诊断的效率和准确性[1 (https://arxiv.org/html/2606.15647#bib.bib1)]。卷积神经网络（CNNs）在疾病分类和病变分割中取得了强劲表现[2 (https://arxiv.org/html/2606.15647#bib.bib2),3 (https://arxiv.org/html/2606.15647#bib.bib3)]，而大型语言模型（LLMs）及其多模态扩展最近在医疗报告生成和临床决策支持中展现出潜力[4 (https://arxiv.org/html/2606.15647#bib.bib4),5 (https://arxiv.org/html/2606.15647#bib.bib5),6 (https://arxiv.org/html/2606.15647#bib.bib6),7 (https://arxiv.org/html/2606.15647#bib.bib7)]。然而，这些方法大多局限于基于静态数据的“感知与决策”范式，缺乏与真实临床环境进行物理交互的能力，这限制了它们在现实医疗场景中的适用性。相比之下，具身人工智能（Embodied AI）能够在物理环境中实现感知、决策与行动，为医疗AI开辟了新途径[8 (https://arxiv.org/html/2606.15647#bib.bib8),9 (https://arxiv.org/html/2606.15647#bib.bib9)]。如图1 (https://arxiv.org/html/2606.15647#S1.F1)所示，医学具身AI系统通常遵循感知-决策-行动的闭环框架。具身AI已应用于一系列医疗任务，包括手术机器人[10 (https://arxiv.org/html/2606.15647#bib.bib10),11 (https://arxiv.org/html/2606.15647#bib.bib11)]、手术导航[12 (https://arxiv.org/html/2606.15647#bib.bib12),13 (https://arxiv.org/html/2606.15647#bib.bib13),14 (https://arxiv.org/html/2606.15647#bib.bib14),15 (https://arxiv.org/html/2606.15647#bib.bib15),16 (https://arxiv.org/html/2606.15647#bib.bib16)]、康复辅助[17 (https://arxiv.org/html/2606.15647#bib.bib17),18 (https://arxiv.org/html/2606.15647#bib.bib18),19 (https://arxiv.org/html/2606.15647#bib.bib19)]以及移动临床支持[20 (https://arxiv.org/html/2606.15647#bib.bib20),21 (https://arxiv.org/html/2606.15647#bib.bib21),22 (https://arxiv.org/html/2606.15647#bib.bib22),23 (https://arxiv.org/html/2606.15647#bib.bib23)]，在复杂动态临床场景中展现出明显优势。尽管潜力巨大，但在具身感知、决策和行动方面仍存在重大挑战，包括数据稀缺、不确定性建模和高精度控制灵敏度。  

参见标题说明  
图2：本综述的整体结构。  

最近的综述从互补视角审视了医学具身AI。一些综述提供了医疗健康中具身AI的广泛概览，总结了功能组件、应用领域、数据集和伦理考量，以勾勒整体研究图景[24 (https://arxiv.org/html/2606.15647#bib.bib24)]。其他综述强调系统级设计，如层次化或模块化架构，以整合感知、规划与执行，重点关注临床可靠性和安全性[25 (https://arxiv.org/html/2606.15647#bib.bib25)]。还有工作将范围缩小到特定方面，包括代表性应用（如手术机器人和康复）[26 (https://arxiv.org/html/2606.15647#bib.bib26)]、核心感知技术如3D医学图像分割[27 (https://arxiv.org/html/2606.15647#bib.bib27)]，以及以专科驱动的视角，如眼科学[28 (https://arxiv.org/html/2606.15647#bib.bib28)]。在这些工作的基础上，本文在感知、决策与行动的闭环框架内统一了先前观点，提供了医学具身AI的补充性系统级视角。  

参见标题说明  
图3：具身AI的概念基础及其与医学具身智能的相关性。a，基于Google Scholar统计的具身AI发表趋势、过去十年的时间演化及代表性关键词。b，具身AI的四个发展阶段：概念萌芽、范式转变、学习驱动和大模型赋能阶段。c，非具身智能与具身AI的比较，突出后者与环境的交互能力。d，具身AI的核心组件，包括系统层面的智能体和环境，以及技术层面的具身感知、决策与行动。  

如图2 (https://arxiv.org/html/2606.15647#S1.F2)所示，本综述的其余部分组织如下。第2节提供具身AI的背景，作为医学具身AI的概念基础，介绍其发展和核心组件。第3节考察医学具身AI的应用，第4节介绍相关数据集。第5节讨论关键挑战和未来展望，第6节总结本综述，并给出对智能医疗系统的关键见解和启示。  

## II. 背景：具身AI  

在本节中，我们简要回顾具身AI作为医学具身AI的概念基础，重点关注其核心思想、发展演化和系统级组件。我们并非旨在提供具身AI的详尽综述，而是建立简洁背景，有助于理解后续关于医学具身AI的讨论。  

### II-A 基础与演化  

近年来，具身AI受到越来越多的研究关注（图3 (https://arxiv.org/html/2606.15647#S1.F3)a），并经历了四个主要发展阶段（图3 (https://arxiv.org/html/2606.15647#S1.F3)b）。早期的概念萌芽阶段通过符号推理奠定了人工智能基础，随后是范式转变阶段，强调学习机制和神经网络。随后的学习驱动阶段利用深度强化学习和模仿学习实现自主决策。在最近的大模型赋能阶段，大型语言和多模态模型显著增强了感知、认知和交互能力，暴露了非具身AI的局限性，并推动了能够在物理环境中行动的具身系统的发展。  

表I：具身AI核心组件、各自功能及子方向概览。  

| 组件 | 功能 | 子方向 |
|------|------|--------|
| 具身感知 | 提供对环境的多模态理解。 | 物体感知<br>场景感知<br>行为感知<br>表情感知 |
| 具身决策 | 将感知转化为自适应策略。 | 任务规划<br>具身导航<br>具身问答（EQA） |
| 具身行动 | 通过物理交互执行决策。 | 基于模仿学习的行动<br>基于强化学习的行动<br>大模型驱动的行动 |

### II-B 核心组件  

具体来说，传统专家系统和语言模型主要在抽象或符号表征上运行，缺乏与物理环境的直接交互，即通常是非具身的（图3 (https://arxiv.org/html/2606.15647#S1.F3)c）。因此，它们在复杂现实场景中的适应性和泛化能力本质上受到限制。相比之下，具身AI使智能体能够以与环境闭环的方式感知、决策和行动。如图3 (https://arxiv.org/html/2606.15647#S1.F3)d所示，具身AI系统通常由三个核心组件组成——具身感知、具身决策和具身行动——共同支持多模态理解、规划推理和自主交互[29 (https://arxiv.org/html/2606.15647#bib.bib29),30 (https://arxiv.org/html/2606.15647#bib.bib30),31 (https://arxiv.org/html/2606.15647#bib.bib31)]。此外，常采用模拟到现实（sim-to-real）迁移来弥合模拟训练与现实部署之间的差距[32 (https://arxiv.org/html/2606.15647#bib.bib32),33 (https://arxiv.org/html/2606.15647#bib.bib33),34 (https://arxiv.org/html/2606.15647#bib.bib34),35 (https://arxiv.org/html/2606.15647#bib.bib35)]。具身AI通常在感知-决策-行动的闭环范式中运行[30 (https://arxiv.org/html/2606.15647#bib.bib30)]。如表I (https://arxiv.org/html/2606.15647#S2.T1)所总结，具身感知从异构感官输入（如视觉、深度、音频和触觉）中提取多模态表征，支持物体、场景、行为和表情理解，用于下游交互、规划、导航和问答[36 (https://arxiv.org/html/2606.15647#bib.bib36),37 (https://arxiv.org/html/2606.15647#bib.bib37)]。基于感知表征，具身决策通过任务规划、导航和具身问答将观测映射到自适应策略，实现目标和语言感知的推理[38 (https://arxiv.org/html/2606.15647#bib.bib38),39 (https://arxiv.org/html/2606.15647#bib.bib39),40 (https://arxiv.org/html/2606.15647#bib.bib40),41 (https://arxiv.org/html/2606.15647#bib.bib41)]。最后，具身行动通过物理交互执行决策，通常通过基于模仿学习、基于强化学习和大模型驱动的方法实现[42 (https://arxiv.org/html/2606.15647#bib.bib42)]。这些特性使具身AI特别适用于安全关键和环境依赖的医疗场景。  

参见标题说明  
图4：医学具身AI概览及其层次化组织与代表性方法。  

参见标题说明  
图5：医学具身感知概览，包括医疗器械与器官识别、手术与临床环境感知与建模、医疗操作行为检测以及情感交互理解。  

## III. 医学具身AI  

基于具身AI，医学具身AI已成为一种交互式、任务导向的临床操作范式。如图4 (https://arxiv.org/html/2606.15647#S2.F4)所示，它遵循感知-决策-行动的闭环框架，包括医学具身感知、决策和行动。集成应用场景通过联合组合这些组件在系统层面实例化该框架，以支持真实医疗任务。因此，本章回顾这些方面的代表性进展，以提供医学具身AI的概览。  

### III-A 医学具身感知  

医学具身感知使智能体能够理解复杂医疗环境中的关键要素，这些环境具有高物体复杂性和严格的操作约束。如图5 (https://arxiv.org/html/2606.15647#S2.F5)所示，本节回顾四个关键方面：医疗器械与器官识别、手术与临床环境感知、医疗操作行为检测以及情感交互理解。  

#### III-A1 医疗器械与器官识别  

医疗器械与器官识别是确保操作安全和诊断准确性的基础能力[43 (https://arxiv.org/html/2606.15647#bib.bib43),44 (https://arxiv.org/html/2606.15647#bib.bib44)]。智能体必须在具有挑战性的条件下可靠地识别多样化的手术工具和复杂的解剖结构，包括杂乱场景、遮挡、血液污染、不稳定光照和显著的器官变形，这对鲁棒性和实时性提出了高要求。现有方法大致可分为三类，反映了平衡鲁棒性、数据依赖性和计算效率的不同策略。基于卷积的图像建模方法通过多尺度空间特征建模广泛用于器械和器官的二维和三维分割。代表性架构如U-Net[45 (https://arxiv.org/html/2606.15647#bib.bib45)]和Transformer变体（如SwinPA-Net[46 (https://arxiv.org/html/2606.15647#bib.bib46)]）在受控条件下表现出色，但从鲁棒性角度看，它们仍然对遮挡、光照变化和组织变形敏感。时空视频建模方法利用时间连续性捕捉手术动力学，在运动和瞬时遮挡下提高稳定性；然而，与基于卷积的方法相比，它们通常需要大规模标注视频数据，并带来更高的计算成本。

迈向下一代医疗：医学具身AI在感知、决策与行动方面的综述

相似文章

世界行动模型：具身智能的下一个前沿

衡量关键指标：医疗保健中生成式、多模态及智能体AI的基准测试

迈向能动人工智能

AutoMedBench：迈向基于智能体AI模型的医学自动研究

FDA批准的人工智能医疗设备现状

提交意见反馈