MEMOR-E:面向阿尔茨海默病辅助机器人的上下文与微调LLM个性化

arXiv cs.AI 论文

摘要

本文介绍了MEMOR-E,一种配备平板界面的移动四足机器人,通过微调和上下文学习结合大语言模型,为阿尔茨海默病患者提供个性化、阶段感知的认知辅助,包括用药提醒和记忆互动,并具备可解释AI以便护理人员监督。

arXiv:2605.23941v1 公告类型: 新 摘要:阿尔茨海默病是一种神经退行性疾病,其特征为记忆和语言能力的渐进性衰退,进而降低日常生活的独立性,这促使了社交辅助机器人的支持。本文介绍了MEMOR-E,一种配备交互式平板界面的移动四足机器人,通过用药提醒、日常指导、记忆导向互动和陪伴来协助患者和护理人员。我们评估了微调大语言模型(LLM)以模拟阶段一致的认知行为,并解释跨标准神经心理学语言任务中响应的可行性,使用了235名阿尔茨海默病患者的音频转录数据和合成生成的健康对照组。我们还报告了在LLM中使用上下文学习(ICL)的发现,其中第二个LLM生成了领域和严重程度级别的认知错误摘要。我们的结果表明,MEMOR-E能够生成阶段感知、非诊断性的认知摘要,支持个性化辅助互动,而可解释AI机制将模型输出转化为透明、人类可读的证据,从而实现护理人员的监督和可信赖的人机交互。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:01

# 面向阿尔茨海默病辅助机器人的情境学习与微调大语言模型个性化

来源:https://arxiv.org/html/2605.23941

###### 摘要

阿尔茨海默病是一种神经退行性疾病,其特点是记忆和语言能力进行性衰退,导致日常生活独立性下降,这推动了社交辅助机器人支持的发展。

本文介绍了 MEMOR-E,一个配备交互式平板界面的移动四足机器人,通过用药提醒、日常指导、记忆导向互动以及陪伴来协助患者和护理人员。

我们评估了微调大语言模型(LLM)以模拟病程一致认知行为并解释跨标准神经心理学语言任务响应的可行性,使用来自 235 名阿尔茨海默病患者的音频转录和合成生成的健康对照组数据。

我们还报告了在 LLM 中使用情境学习(ICL)的发现,其中第二个 LLM 生成了领域和严重程度级别的认知错误总结。我们的结果表明,MEMOR-E 能够生成阶段感知的、非诊断性的认知总结,以支持个性化辅助互动,同时可解释人工智能机制将模型输出转化为透明、人类可读的证据,从而实现护理人员监督和值得信赖的人机交互。

阿尔茨海默病 (AD),社交辅助机器人,人机交互,认知评估,可解释人工智能,大语言模型

††ccs:以人为中心的计算 人机交互 (HCI)††ccs:以人为中心的计算 人机交互††ccs:以人为中心的计算 用户界面设计††ccs:计算方法 机器人学††ccs:计算方法 人工智能

## 1. 引言

阿尔茨海默病影响全球超过 5500 万人,其特征是记忆、语言和执行功能的进行性衰退 (jack2018framework, (https://arxiv.org/html/2605.23941#bib.bib1))。这些障碍增加了患者对护理人员和家庭成员在药物管理、日常事务和情感支持方面的依赖。这些需求给家庭和医疗系统带来了沉重的情感和后勤负担。

近年来机器人和人工智能的进步使得社交辅助机器人得以实现,它们通过提供提醒和陪伴来补充人类护理 (bemelmans2012scoping, (https://arxiv.org/html/2605.23941#bib.bib2))。先前的认知模拟研究表明,宠物机器人可以减轻压力、提高参与度并改善阿尔茨海默病患者的生活质量。然而,许多现有系统要么是固定式的,要么纯粹是情感性的,或者缺乏与现代基于语言的推理系统的集成。

参见图 1 说明。图 1. 阿尔茨海默病辅助机器人狗 MEMOR-E,带有交互屏幕和功能模块。
参见图 2 说明。图 2. MEMOR-E 辅助机器人,配备头戴式平板界面,用于提供提醒、认知游戏和记忆导向互动。

我们介绍 MEMOR-E,一个移动四足机器人,配备头戴式平板电脑,通过视觉提示、AI 辅助对话、提醒、用药支持、认知游戏以及带描述的图片和视频记忆提示,提供情境感知的辅助。MEMOR-E 会物理接近用户,并在需要时提供信息。该系统还探索了大语言模型在模拟病程一致的阿尔茨海默病认知行为以及生成可解释的记忆表现摘要以用于辅助互动(而非诊断)方面的可行性。贡献如下:

*   具有可解释 AI 支持的系统设计:一个集成的软硬件平台,结合了四足机器人、平板界面、自主导航、护理人员连接性和可解释 AI,以生成对认知任务结果的透明、人类可读的解释。
*   阿尔茨海默病阶段自适应交互:一个简化的图形界面,与跨阿尔茨海默病阶段的认知挑战相对应,这些挑战源自临床评估,并得到可解释反馈的支持,以便护理人员进行监督。
*   基于 LLM 的认知分析:一项可行性研究,使用大语言模型模拟阶段一致的患者反应,对跨神经心理学任务的认知错误进行分类,侧重于可解释的领域级别摘要,而非预测。

## 2. 相关工作

##### 用于痴呆症的社交辅助机器人

社交辅助机器人已在痴呆症护理中得到广泛探索 (rossi2017users, (https://arxiv.org/html/2605.23941#bib.bib3)),包括人形机器人的对话代理,以及诸如 Paro 等宠物机器人,已被证明在老年护理环境中对情绪、减压和社交参与有积极影响。其中一些侧重于任务提醒和认知游戏。然而,移动性和个性化程度有限 (chapman1995narrative, (https://arxiv.org/html/2605.23941#bib.bib4))。

##### 阿尔茨海默病中的语言和记忆评估

基于语言的认知评估也受到关注,特别是使用来自图片描述、语言流利性和故事回忆任务的语音转录 (perret1974fluency, (https://arxiv.org/html/2605.23941#bib.bib5))。诸如 TalkBank DementiaBank (becker1994natural, (https://arxiv.org/html/2605.23941#bib.bib6)) 等大型数据集提供了带注释的语音样本,揭示了阿尔茨海默病的语言标记,包括词汇多样性降低、不流畅增加和叙述碎片化。这些任务支持记忆、执行功能和句法组织。这些数据集使得对痴呆相关语言衰退的计算分析成为可能。

##### 医疗保健和人机交互中的大语言模型

LLM 最近被探索用于临床文本分析、患者模拟和可解释摘要。尽管在诊断误用方面仍存在承诺和担忧。在这项工作中,LLM 严格用于行为模拟和可解释性、支持以及辅助互动,而非医疗决策。

## 3. 方法

MEMOR-E 遵循一个两步、保护隐私的框架,用于认知严重程度检测和辅助功能规划。该系统在移动机器人平台内集成了基于 Transformer 的语言建模、可解释人工智能(XAI)以及本地大语言模型(LLM)。

### 3.1. 硬件和软件架构

MEMOR-E 部署在 Unitree Go2 四足机器人上,选择该机器人是因为其稳定的运动能力、紧凑的室内机动性以及在辅助环境中社会可接受的外形。头戴式触摸屏平板电脑作为主要的交互界面,提供提醒、认知练习和视觉提示。

该系统在 ROS 2 下运行,使用 Nav2 进行自主导航和安全室内移动。Intel RealSense RGB-D 摄像头支持避障和基本用户感知。所有计算均在本地执行,使得 Longformer 分类器和 Qwen 2.5 (7B) LLM 能够在设备上运行,而无需将患者数据传输到外部。

架构遵循闭环结构:

*   感知信息支持认知状态估计。
*   基于 Transformer 的模型计算任务特定的严重程度信号。
*   源自 XAI 的摘要指导下游推理。
*   本地 LLM 将严重程度信号映射到辅助功能建议。
*   机器人随后相应地执行导航或基于平板电脑的互动。

图 3 (https://arxiv.org/html/2605.23941#S3.F3) 展示了完整的 MEMOR-E 处理流水线。MEMOR-E 优先考虑系统级透明度和可控性而非完全自主,明确将学习组件约束在闭环、人类监督的辅助架构内。

参见图 3 说明。图 3. MEMOR-E 流水线:基于转录的 Longformer 分类器产生任务特定的严重程度信号;基于 Integrated Gradients 的 XAI 聚合保护隐私的桶统计信息;本地 Qwen 2.5 LLM 将统计信息映射到非诊断性的辅助功能计划;机器人执行平板互动和导航。

### 3.2. 认知任务与数据集

我们使用来自 TalkBank DementiaBank Pitt (becker1994natural, (https://arxiv.org/html/2605.23941#bib.bib6)) 的四个标准神经心理学语言任务评估 MEMOR-E,该数据集是完全匿名的。我们在使用该数据集时遵循了其指南。

#### 3.2.1. 饼干盗窃图片描述

参与者描述一个复杂的视觉场景,其中孩子们在母亲分心时偷饼干。此任务评估语义记忆、视觉注意力和叙事连贯性。此任务中既有阿尔茨海默病(AD)患者,也有真实的健康对照组。

#### 3.2.2. 故事回忆

参与者在三种条件下回忆“George and Melanie”故事:即时回忆、延迟回忆和理解问题。

此任务评估情景记忆和记忆巩固。AD 样本是真实的;健康对照组是合成生成的,以平衡类别分布。

#### 3.2.3. 语言流利性

参与者产生:

*   动物名称(语义流利性),
*   以字母 F 或 S 开头的单词(音位流利性)。

此任务评估词汇检索和执行控制。

#### 3.2.4. 句子构建

参与者生成:

*   包含目标词的句子(例如,树),
*   包含三个给定词的句子(例如,医生,椅子,孩子)。

此任务捕捉句法规划和语义整合。

#### 3.2.5. 合成健康对照组

对于回忆、流利性和句子任务,使用大语言模型生成健康对照组样本,以平衡类别分布。这些样本仅用于分类器训练,不被解释为真实世界泛化的证据 (lehman2021bias, (https://arxiv.org/html/2605.23941#bib.bib7))。数据集组成总结于表 1 (https://arxiv.org/html/2605.23941#S3.T1)。

表 1. 多任务实验设置中使用的数据集。涉及合成健康对照组的任务需谨慎解释,因为存在潜在的分布伪影。

### 3.3. 步骤 1:可解释性驱动的认知信号提取

#### 3.3.1. 基于 Longformer 的分类

我们采用了 `allenai/longformer-base-4096` (https://arxiv.org/html/2605.23941v1/allenai/longformer-base-4096) 以处理较长的临床转录。对于每个任务,训练一个独立的二元分类器:
$F_{任务}: \text{转录} \rightarrow P(\text{AD})$
模型使用分层五折交叉验证和二元交叉熵损失进行评估。指标包括准确率、F1 分数、AUC、灵敏度和特异度。对于每个受试者,我们计算:

*   各折的平均 AD 概率,
*   跨折投票率,
*   概率方差作为稳定性度量。

#### 3.3.2. 可解释人工智能分析

使用 Integrated Gradients (sundararajan2017axiomatic, (https://arxiv.org/html/2605.23941#bib.bib8)) (Captum) 提取标记级归因。Integrated Gradients 是一种归因方法,通过沿着从基线输入到实际输入的连续路径积分梯度,估计每个输入特征对模型预测的贡献程度,从而捕捉每个标记对输出 logit 的方向性影响,同时满足诸如敏感性和实现不变性等公理属性。由于 Longformer 使用字节对编码(BPE),在进行归因分析之前,将子词标记重构为词级单元。

归因被分组到*语言动机的桶*中,以便在捕获临床相关语音模式的同时实现保护隐私的聚合。具体来说,我们将标记分桶为:

*   不流畅和注释标记(例如,填充词、修正、CHAT 标签),
*   词汇内容标记(开放类词),
*   标点符号,
*   短子词片段,
*   特殊模型标记。

从中,我们推导出保护隐私的统计数据:

*   不流畅与内容比率,
*   归一化的桶质量分布,
*   证据熵,
*   归因集中度度量。

重要的是,这个可解释性流水线确保没有原始患者转录暴露于步骤 1 处理之后,从而在实现适合辅助人机交互的可解释认知分析的同时保护隐私 (holzinger2019causability, (https://arxiv.org/html/2605.23941#bib.bib9))。

#### 3.3.3. 严重程度指数

确定性严重程度指数定义为:设 $P_k(\text{AD})$ 表示第 $k$ 折预测的 AD 概率。我们定义 $\overline{P(\text{AD})}$ 为 $K$ 折的平均预测概率:
$\overline{P(\text{AD})} = \frac{1}{K}\sum_{k=1}^K P_k(\text{AD})$
$\text{SeverityIndex} = \alpha \cdot \overline{P(\text{AD})} + \beta \cdot \text{VoteRate} - \gamma \cdot \text{Var}(P)$
这种公式可确保可重复性,并避免 LLM 驱动的风险评估可变性 (gibbons2012continuous, (https://arxiv.org/html/2605.23941#bib.bib10))。

### 3.4. 步骤 2:基于 LLM 的辅助功能规划

只有结构化的数值摘要被传递给本地 Qwen 2.5 (7B) LLM。原始转录永远不会被提供。LLM 被限制为数值输入,生成结构化的 JSON 输出,并提供非诊断性的辅助建议。支持的功能包括每日提醒、日程安排、匹配水果、XOX 游戏和记忆提示(照片/视频)。本工作中使用的患者 LLM 和分类器 LLM 都是现成的大语言模型,并未在医疗、临床或阿尔茨海默病特定数据集上进行微调。所有任务适应完全通过基于提示的情境学习实现。这一设计选择是有意为之,以避免将领域特定的临床先验嵌入系统,并确保所有阶段条件化行为透明地源自提示结构,而非潜在医学知识。

我们定义了三个阶段档案,与人机交互原型设计中常参考的轻度至中度损伤水平相对应(阶段 1、阶段 3、阶段 5),并实例化了九个虚构人物(每阶段三个)。一个 10 项探测目标针对情景、前瞻、工作/短期、语义和序列领域(每项两个)。一个“患者 LLM”生成了人物条件化的答案,另一个独立的“分类器 LLM”为每个项目分配一个主要领域,标记错误严重程度,汇总每个领域的错误总数,并产生一个粗略的阶段估计。三个角色用作定性校准的锚点,六个用于评估。

## 4. 结果

### 4.1. 交叉验证性能

表 2 (https://arxiv.org/html/2605.23941#S4.T2) 报告了所有任务的五折交叉验证结果。Cookie Theft 任务包含真实的阿尔茨海默病(AD)患者和真实的健康对照组,取得了平衡的性能,AUC 为 0.878,特异度超过灵敏度。这表明模型在分配 AD 标签时更为保守,减少了假阳性,同时保持了合理的检测灵敏度。

表 2. 五折交叉验证性能。使用合成健康对照组的任务中出现的完美分离反映了分布伪影,而非真实世界泛化。

相比之下,Recall、Fluency 和 Sentence 任务中的完美分离反映了使用了合成生成的健康对照组,这很可能引入了分布伪影。这些结果

相似文章

PersonaVLM:长期个性化多模态大语言模型

Hugging Face Daily Papers

PersonaVLM 提出了一种个性化多模态大语言模型框架,通过记忆保留、多轮推理和响应对齐实现长期用户适应,在新推出的 Persona-MME 基准测试中比 GPT-4o 高出 5.2%。