优化数字治疗干预：在内生依从性下的在线学习

arXiv cs.LG 2026/05/26 04:00 论文

摘要

本文提出了一个数字治疗决策支持框架，将患者依从性建模为内生变量，并利用在线学习优化治疗建议，实现了次线性遗憾。

arXiv:2605.24261v1 Announce Type: new 摘要: 临床医生在管理慢性病干预中面临的关键挑战是，在信息和资源有限的情况下维持患者长期健康。数字治疗（DTs）通过重复互动（例如每日治疗建议）提供了一种经济高效的干预管理方式，但患者的成功高度依赖于其依从性。行为心理学表明，治疗建议和过去的依从性都会影响未来的依从性，然而现有的DT决策支持框架仅建模建议效应或将依从性视为外生情境，在模型和算法开发上留下了关键缺口。为填补这一缺口，我们提出了一个DT决策支持框架，同时捕捉建议和依从性效应，使临床医生能够更好地规划治疗建议。我们使用线性动态系统（LDS）对患者随时间变化的治疗参与能力进行建模，该系统同时捕捉建议和依从性效应，并通过logit链接与依从性行为内生关联。我们建立了该模型的有限时间识别保证，将LDS结果扩展到我们的设置中。接下来，我们提出了一种基于乐观主义的算法UCB-BOLD用于在线治疗选择，并证明其实现了次线性遗憾。我们通过基于微随机试验数据生成的患者合成队列的消融研究，将UCB-BOLD与基准方法进行了评估。DT决策支持工具可以包含动态模型，使决策者能够有效利用DT设置中的数据，通过有效资源分配改善患者健康。虽然短视或启发式方法对某些患者类型足够，但对于其他患者而言，围绕建议和依从性效应进行显式规划的益处显著；UCB-BOLD的条件风险价值遗憾比次优基准低2-3倍。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:02

# 1 引言 来源: https://arxiv.org/html/2605.24261 \\OneAndAHalfSpacedXII\\EquationsNumberedThrough\\TheoremsNumberedThrough\\ECRepeatTheorems\\MANUSCRIPTNO MSOM\-0001\-2024\.00 \\RUNAUTHOR \\RUNTITLE 优化数字治疗干预 \\TITLE 优化数字治疗干预: 内源性依从性下的在线学习 \\ARTICLEAUTHORS\\AUTHOR Eric Pulick\\AFF威斯康星大学麦迪逊分校工业与系统工程系,\\EMAILpulick@wisc\.edu \\AUTHOR Stephanie Carpenter\\AFF亚利桑那州立大学健康解决方案学院,\\EMAILstephanie\.m\.carpenter@asu\.edu \\AUTHOR Matthew Buman\\AFF亚利桑那州立大学健康解决方案学院,\\EMAILmatthew\.buman@asu\.edu \\AUTHOR Yonatan Mintz\\AFF威斯康星大学麦迪逊分校工业与系统工程系,\\EMAILymintz@wisc\.edu \\摘要 问题定义: 临床医生在管理慢性疾病干预时面临的一个关键挑战是，在信息和资源有限的情况下，如何维持患者的长期健康。数字疗法 (DTs) 通过重复互动（例如每日治疗建议）提供了一种经济高效的大规模管理干预方式，但患者的成功高度依赖于他们的依从性。行为心理学表明，治疗建议和过去的依从性都会影响未来的依从性，然而现有的 DT 决策支持框架仅对建议效果进行建模，或将依从性视为外生背景，这给模型和算法开发留下了关键空白。方法/结果: 为填补这一空白，我们提出了一个 DT 决策支持框架，该框架同时捕捉建议和依从性效应，使临床医生能够更好地规划治疗建议。我们使用一个线性动态系统 (LDS) 来建模患者随时间变化的治疗参与能力，该系统同时捕捉建议和依从性效应，并通过 logit 链接内生于依从性行为。我们为该模型建立了有限时间识别保证，将 LDS 的结果扩展到了我们的场景。接下来，我们提出了一种基于乐观主义的算法 UCB-BOLD，用于在线治疗选择，并证明其实现了次线性遗憾。我们通过消融研究，在一个使用微随机试验数据生成的合成患者队列上评估了 UCB-BOLD，该数据旨在开发工作场所久坐行为干预。管理启示: DT 决策支持工具可以包含动态模型，使决策者能够高效利用 DT 环境中的数据，通过有效的资源分配改善患者健康。虽然短视或启发式方法适用于某些患者类型，但对于其他患者而言，围绕建议和依从性效应进行显式规划的益处显著；UCB-BOLD 的条件风险价值遗憾比次优基准低 2-3 倍。慢性疾病，包括代谢性疾病和成瘾，影响着数百万美国人（分别占成年人口的 34.7% 和 16.8%）（Palaniappan 等, 2026 (https://arxiv.org/html/2605.24261#bib.bib52), SAMHSA, 2025 (https://arxiv.org/html/2605.24261#bib.bib59)）。管理这些疾病治疗的一种经济有效的方法是使用数字疗法 (DTs)。DTs 提供个性化的行为干预，以解决广泛的情况，如缺乏体育活动 (PA)（Spring 等, 2024 (https://arxiv.org/html/2605.24261#bib.bib66)）、精神疾病（Ben-Zeev 等, 2018 (https://arxiv.org/html/2605.24261#bib.bib12)）、物质使用障碍 (SUDs)（Gustafson 等, 2014 (https://arxiv.org/html/2605.24261#bib.bib29)）和糖尿病（Sepah 等, 2017 (https://arxiv.org/html/2605.24261#bib.bib60)）。DTs 与患者重复互动，但其有效性依赖于患者的依从性。这给 DT 提供者带来了一个序列决策 (SDM) 问题；在每个决策点，提供者收集相关患者数据并选择推荐哪种（如果有的话）治疗，而患者则选择是否遵守给定的建议。DT 的建议和患者的依从性决策都会影响患者未来的依从性行为。例如，无论是否依从，建议都可能带来认知负担，而依从本身可能令人疲劳或形成习惯。此外，这些影响可能因个体或治疗而异，并且必须在线学习。现有的 DT 框架仅对建议效果建模，或将依从性视为外生背景。因此，亟需能够同时建模依从性和建议效果的框架，以帮助 DTs 更好地支持患者的长期健康。在本文中，我们提出了一个用于 DT 决策支持的 SDM 框架。我们将患者参与治疗的能力建模为一个线性动态系统 (LDS)，其动态依赖于先前的能力、治疗建议和患者依从性，并通过 logit 链接将能力内生于依从性。该框架能够捕捉有益（例如，形成习惯）和有害（例如，负担或疲劳）的效果。该模型刻意追求简约，旨在捕捉相关的建议和依从性现象，同时保持对临床医生的可解释性和对优化的易处理性。我们对该模型进行了统计分析，并证明了有限时间识别保证。我们还提出了一种用于 DT 治疗推荐的在线优化算法 UCB-BOLD，并证明它在本文场景中实现了次线性遗憾。最后，我们以一个合成患者队列的案例研究作为结论，该队列使用来自一项久坐行为微随机试验 (MRT) 的数据进行校准，我们展示了 UCB-BOLD 优于基准算法。该框架特别针对长期运行的行为干预，在这些干预中，维持患者长期参与尤为重要。### 1.1 问题背景：数字疗法与自适应干预 患者持续参与是 DT 干预所针对疾病中实现长期患者预后的重要决定因素。例如，在 SUD 中，患者对持续数月乃至数年的延续护理（即强度较低但持续监测和支持）的参与是可持久康复的重要预测指标（McLellan 等, 2013 (https://arxiv.org/html/2605.24261#bib.bib46), Proctor 和 Herschman, 2014 (https://arxiv.org/html/2605.24261#bib.bib55)）。类似地，需要长期患者参与才能实现与增加 PA 或体重管理相关的健康益处（Jakicic 等, 2019 (https://arxiv.org/html/2605.24261#bib.bib36)），这反映在近期研究的时长上，例如为期 12 个月的 HeartSteps II 试验（Spruijt-Metz 等, 2022 (https://arxiv.org/html/2605.24261#bib.bib67)）。然而，在这些场景中，已观察到患者参与度随时间下降（Baumel 等, 2019 (https://arxiv.org/html/2605.24261#bib.bib11)），并且重复提示传递后干预效果减弱（Klasnja 等, 2019 (https://arxiv.org/html/2605.24261#bib.bib38)）。这促使采用 DT 方法来更好地管理患者参与度，以改善长期患者预后。即时自适应干预 (JITAI) 和移动健康文献越来越将参与度描述为随时间变化的而非静态的构念（Perski 等, 2017 (https://arxiv.org/html/2605.24261#bib.bib53), Nahum-Shani 等, 2022 (https://arxiv.org/html/2605.24261#bib.bib48), Nahum-Shani 和 Yoon, 2024 (https://arxiv.org/html/2605.24261#bib.bib51)）。理论框架，例如累积复杂性模型（Shippee 等, 2012 (https://arxiv.org/html/2605.24261#bib.bib63)）及其在数字健康环境中的扩展（Cross 和 Alvarez-Jimenez, 2024 (https://arxiv.org/html/2605.24261#bib.bib19)），提出将患者依从性和参与行为视为底层、随时间变化的患者能力的函数。这种能力受到诸如负担、疲劳和习惯形成等机制的影响，JITAI 文献强调这些是未来干预设计的重要考虑因素（Nahum-Shani 和 Murphy, 2026 (https://arxiv.org/html/2605.24261#bib.bib50)）。这些概念框架与心理学文献中更广泛的转变相一致，即采用动态系统模型作为理解和近似个体行为的工具（Briganti 等, 2024 (https://arxiv.org/html/2605.24261#bib.bib17), Perski 等, 2025 (https://arxiv.org/html/2605.24261#bib.bib54)），进一步推动了将显式生成模型整合到 DT 决策支持工具中。然而，到目前为止，很少有个性化 JITAI (pJITAI) 算法在其构建过程中纳入正式动态模型（Perski 等, 2025 (https://arxiv.org/html/2605.24261#bib.bib54)），以此作为同时捕捉建议和依从性效应的方法。先前的工作已做出重要的方法论和部署贡献（见第 2 节 (https://arxiv.org/html/2605.24261#S2)），但之前没有方法像本文这样，将用于移动健康患者参与的参数化动态模型与系统识别及算法遗憾保证相结合。### 1.2 贡献 我们为 DT 提供者开发了一个决策支持框架，包含四项具体贡献：1. 1. 我们提出了一个具有随机、状态依赖依从性的 LDS，用于建模患者随时间变化的参与能力。该框架使数字疗法能够基于建议和依从性效应进行规划。它还将随时间变化的患者行为以临床可解释的方式呈现，与心理学文献中朝向动态患者模型的趋势相一致。2. 2. 我们在一个结构化策略类别下建立了有限时间系统识别保证，该类别允许在探索步骤之外任意策略行为（可能是自适应的或对抗性的）。我们证明了动态和依从性参数以典型的 \(\tilde{\mathcal{O}}(1/\sqrt{T})\) 速率是可识别的，将 LDS 保证扩展到了具有 1-稀疏输入和状态依赖依从性的场景。3. 3. 我们开发了一种基于乐观主义的算法 UCB-BOLD，以优化 DT 治疗推荐。我们证明 UCB-BOLD 在此上下文中实现了 \(\tilde{\mathcal{O}}(\sqrt{T})\) 遗憾，使其与其他强化学习 (RL) 算法具有竞争力。4. 4. 我们使用来自一项久坐行为 MRT 的数据拟合了一个贝叶斯层次模型。我们使用此模型生成合成患者，并在模拟轨迹上通过消融研究评估 UCB-BOLD 与启发式、短视和无模型 RL 基准算法的对比。我们发现 UCB-BOLD 的条件风险价值遗憾比次优基准低 2-3 倍。## 2 文献综述 我们的工作借鉴了四个主要文献流：医疗运营中的 SDM、JITAIs、移动健康驱动的 Bandits 以及基于模型的控制。### 2.1 医疗运营中的 SDM 已有大量工作探索医疗运营中针对患者的 SDM。例如，马尔可夫决策过程 (MDP) 和部分可观测马尔可夫决策过程 (POMDP) 模型已被用于分析器官移植（Alagoz 等, 2004 (https://arxiv.org/html/2605.24261#bib.bib3)）、治疗启动（Shechter 等, 2008 (https://arxiv.org/html/2605.24261#bib.bib61)）、慢性疾病管理（Mason 等, 2012 (https://arxiv.org/html/2605.24261#bib.bib45), Helm 等, 2015 (https://arxiv.org/html/2605.24261#bib.bib31)）和疾病筛查（Ayer 等, 2012 (https://arxiv.org/html/2605.24261#bib.bib7)）。近期工作强调了机器学习视角（Bertsimas 和 Kallus, 2020 (https://arxiv.org/html/2605.24261#bib.bib14)），重点关注个性化医疗场景的数据驱动保证（Bastani 和 Bayati, 2020 (https://arxiv.org/html/2605.24261#bib.bib10)）。我们的工作为这一文献流做出了贡献，特别关注个体行为模型的在线学习环境（Aswani 等, 2019 (https://arxiv.org/html/2605.24261#bib.bib5)）。与这些工作相比，我们专注于显式建模患者参与度及其对政策决策的影响。### 2.2 即时自适应干预 JITAIs 是提供个性化行为干预的原则性框架（Nahum-Shani 等, 2018 (https://arxiv.org/html/2605.24261#bib.bib49)），通常使用 MRT 数据进行优化（Klasnja 等, 2015 (https://arxiv.org/html/2605.24261#bib.bib39)）。JITAIs 已在大规模部署中有效应用，例如针对体育活动的 HeartSteps 项目（Klasnja 等, 2019 (https://arxiv.org/html/2605.24261#bib.bib38), Spruijt-Metz 等, 2022 (https://arxiv.org/html/2605.24261#bib.bib67)）和针对口腔护理的 Oralytics 项目（Trella 等, 2025 (https://arxiv.org/html/2605.24261#bib.bib69)）。我们的工作对此类文献进行了补充，特别是针对长期运行的干预措施，例如 SUD 延续护理（Proctor 和 Herschman, 2014 (https://arxiv.org/html/2605.24261#bib.bib55)）。### 2.3 移动健康情境化和非平稳 Bandits 近期部署的 pJITAIs 使用 Thompson 采样情境化 Bandits，通过手工特征（如近期治疗剂量）处理时间动态（Liao 等, 2020 (https://arxiv.org/html/2605.24261#bib.bib42)）。扩展包括跨患者的部分信息池化，以更好地利用稀缺样本（Tomkins 等, 2021 (https://arxiv.org/html/2605.24261#bib.bib68), Abbott 等, 2024 (https://arxiv.org/html/2605.24261#bib.bib2)）。重要的是，这些方法没有显式的动态模型，而是将情境视为外生的，并调整奖励以解释时变过程。非平稳和 restless bandit 方法是 Bandit 设置中捕捉时变行为的另一种方式（Whittle, 1988 (https://arxiv.org/html/2605.24261#bib.bib72)），其扩展探索了各种结构假设（Garivier 和 Moulines, 2008 (https://arxiv.org/html/2605.24261#bib.bib27), Besbes 等, 2014 (https://arxiv.org/html/2605.24261#bib.bib15)）。移动健康驱动的非平稳 Bandit 工作已从无模型（Baek 等, 2025 (https://arxiv.org/html/2605.24261#bib.bib9)）和基于模型（Mintz 等, 2020 (https://arxiv.org/html/2605.24261#bib.bib47)）视角出现。Mintz 等 (2020 (https://arxiv.org/html/2605.24261#bib.bib47)) 及其扩展（He 和 Mintz, 2024 (https://arxiv.org/html/2605.24261#bib.bib34), Li 等, 2025 (https://arxiv.org/html/2605.24261#bib.bib44)) 与我们的工作最为接近，它们建模了每个臂具有动作依赖的习惯化和恢复动态的情况。我们的方法不同之处在于，我们建模了控制器动作和内生患者依从性决策如何共同影响未来参与度。我们还建模了一个共同的、随时间变化的参与状态，而不是每个臂的状态。在方法论上，我们的算法依赖于乐观主义（Lai 和 Robbins, 1985 (https://arxiv.org/html/2605.24261#bib.bib40), Auer 等, 2008 (https://arxiv.org/html/2605.24261#bib.bib6)），调整了在线性（Abbasi-Yadkori 等, 2011 (https://arxiv.org/html/2605.24261#bib.bib1)）和 Logistic（Faury 等, 2020 (https://arxiv.org/html/2605.24261#bib.bib25)）Bandit 设置中部署的上置信界 (UCB) 技术。我们提出的算法改编了 Jin 等 (2023 (https://arxiv.org/html/2605.24261#bib.bib37)) 中为情景线性 MDP 构建的 LSVI-UCB 结构，以适应具有混合线性-逻辑系统动态的折扣、无限期界场景。### 2.4 基于模型的控制方法 一个相关的研究领域将控制系统工具（如系统识别和模型预测控制 (MPC)）应用于行为干预。

相似文章

基于数字孪生模拟的治疗响应优化临床决策支持AI系统

arXiv cs.AI

本文提出了一种在线自适应的临床决策支持AI系统，该系统整合了治疗效果估计、数字孪生模拟和强化学习，以在安全、临床医生监督的方式下推荐治疗方案，并在合成模拟器和TCGA卵巢癌数据集上进行了验证。

通过算法等价实现隐凸损失的在线学习：最优遗憾、几何障碍与赌博机反馈

arXiv cs.LG

本文证明，在海森兼容性条件下，在线梯度下降方法能够针对隐凸损失实现最优的√T遗憾值，解决了对抗性在线学习中的开放问题。同时，还将结果扩展至单点赌博机反馈，给出了T^{3/4}的期望遗憾界。

私有随机决策理论在线学习中的最优间隔依赖遗憾

arXiv cs.LG

本文通过为私有随机决策理论在线学习提供最优间隔依赖遗憾算法，解决了COLT开放问题，达到了阶 (log K)/Δ_min + (log K)/ε 的下界。

离散扩散在线适应在分子优化中的设计空间研究

arXiv cs.LG

本文研究了分子优化中离散扩散模型的在线适应策略，确定了采集、奖励塑形、去偏、重放和有效性控制等互补组件，这些组件提高了小分子和蛋白质任务上的反馈效率。

TD-DPO: Difference-Aware Preference Optimization for Mitigating Sycophancy in Clinical Autism Intervention Dialogue

arXiv cs.LG

This paper proposes TD-DPO, a token-level difference-aware preference optimization method to mitigate sycophancy in LLMs for clinical autism intervention dialogue, achieving a better trade-off between sycophancy reduction and intervention ability retention.

相似文章

基于数字孪生模拟的治疗响应优化临床决策支持AI系统

通过算法等价实现隐凸损失的在线学习：最优遗憾、几何障碍与赌博机反馈

私有随机决策理论在线学习中的最优间隔依赖遗憾

离散扩散在线适应在分子优化中的设计空间研究

TD-DPO: Difference-Aware Preference Optimization for Mitigating Sycophancy in Clinical Autism Intervention Dialogue

提交意见反馈