利用注意力引导的动态分解建模药品短缺药剂师的有限理性
摘要
本文提出了一种注意力引导的决策框架,用于医院药剂师管理药品短缺,通过将药品动态分解为紧急子集和监控子集来对有限理性进行建模,并表明选择性注意力可以在不进行完整状态推理的情况下实现稳定的决策。
arXiv:2605.14111v1 公告类型: new
摘要:医院药剂师在不确定性、时间压力和患者风险下做出高风险决策以缓解药品短缺。访谈显示,药剂师将注意力集中在少量药品上,将认知努力限制在最紧急的案例中。受这些发现启发,我们形式化了一种有限理性、注意力引导的决策框架,该框架将药品动态分解为一个用于高成本推理的子集和一个用于低成本监控的补充子集。我们开发了两个代理:一个是从药剂师访谈中得出注意力权重的Expert Agent,另一个是通过经验随时间自适应分配注意力的Learner Agent。在从短期到长期的多场景模拟中,我们表明注意力引导的规划无需完整的状态推理即可支持稳定的决策。这些结果表明,首要决策不是采取什么行动,而是将认知努力分配给何处,并且注意力引导的满意化策略能够在保持稳定性能的同时降低问题复杂性。
查看缓存全文
缓存时间: 2026/05/15 06:20
# 利用注意力引导动态分解对药物短缺药师有限理性建模 来源: https://arxiv.org/html/2605.14111 Yaniv Eliyahu Amiri¹, Noah Chicoine², Jacqueline Griffin², Stacy Marsella¹,³ ¹东北大学Khoury计算机科学学院,美国马萨诸塞州波士顿 ²东北大学机械与工业工程系,美国马萨诸塞州波士顿 ³东北大学心理学系,美国马萨诸塞州波士顿 amiri\.y@northeastern\.edu ###### 摘要 医院药师在不确定性、时间压力和患者风险下做出缓解药物短缺的高风险决策。访谈显示,药师将注意力集中在少数药物上,将认知努力限制在最紧急的案例上。受这些发现启发,我们形式化了一个有限理性、注意力引导的决策框架,该框架动态地将药物分解为一个用于高成本推理的子集和一个用于低成本监测的补充子集。我们开发了两个智能体:一个专家智能体,应用从药师访谈中得出的注意力权重;以及一个学习智能体,通过经验随时间调整注意力分配。在从短期到长期的不同模拟场景中,我们表明注意力引导规划可以在不进行完整状态推理的情况下支持稳定决策。这些结果表明,主要决策不是采取什么行动,而是将认知努力分配到哪里,并且注意力引导的满意策略可以在保持稳定性能的同时降低问题复杂性。 关键词:药物短缺管理;有限理性;注意力分配;专家决策;计算认知建模;不确定性下决策;医疗决策; ## 引言 管理药物短缺的医院药师在极端不确定性下面临着高风险序贯决策。美国药物短缺在2020年至2023年间稳步增加,品牌药短缺急剧上升,给医疗系统带来了运营和临床风险[10](https://arxiv.org/html/2605.14111#bib.bib1)。实践中,药师必须管理数百种药物,面临不确定的供应、波动的需求和不可靠的交付信息,导致一个部分可观察的高维决策问题,无法进行详尽规划。 对在职药师的访谈表明,专家并不试图对所有药物进行全局优化。相反,他们根据当前状态和风险水平,动态地将注意力分配给需要立即干预的一小部分药物,同时对剩余药物进行更被动的监测。我们将这种优先级信号称为“紧急性”,它由诸如剩余供应周数、供需不确定性以及每种药物相关的先前显著事件等因素决定。现有的决策支持方法并未明确模拟这种注意力分配。完全理性的序贯规划方法,例如部分可观察马尔可夫决策过程(POMDP),在全状态空间上运行,在现实药物短缺环境中变得计算上不可处理[12](https://arxiv.org/html/2605.14111#bib.bib6)。近似规划方法提高了可处理性,但未能捕捉不确定性下如何选择性分配推理努力[16](https://arxiv.org/html/2605.14111#bib.bib8), [9](https://arxiv.org/html/2605.14111#bib.bib9)。在访谈中,专家表达了这些模型的运作方式与专家在时间压力下推理和确定优先级的方式之间存在不匹配。他们还表达了可解释性需求。他们希望这些模型能够揭示在决策过程中如何形成或更新优先级,以便他们理解为何选择某种药物。 因此,我们研究选择性注意力能否作为这些领域中可处理决策的计算机制。我们引入两个计算模型。专家智能体编码注意力权重,指导应关注哪些药物。这些权重来自药师访谈。学习智能体通过经验随时间学习这些注意力分配权重。两个智能体都将深度规划限制在一个基于紧迫性的小子集中,将规划中考虑的实体数量减少到一个焦点集。 我们在受专家访谈启发的模拟药物短缺场景中评估这些模型,并与一个考虑所有药物详尽规划的完整状态在线规划基线进行比较。我们的结果表明,注意力引导策略实现了稳定的长期性能,同时大幅降低了计算成本,因为它们在决定采取什么行动之前先确定在哪里付出推理努力。这些发现表明,全局优化策略可能并非高性能所必需。我们将此模型描述为一个受专家行为启发的计算框架。 ## 相关工作 医院药师必须维持数百种药物的供应,同时面临关于自身医院供应、未来需求、短缺何时结束以及何时能获得补给的极大不确定性。为了建模药师的决策过程,我们的工作建立在人类和专家决策形式模型以及药品供应链的一系列研究基础上。 *形式模型* 医疗供应链中的近期工作通过预测建模来解决药物短缺[3](https://arxiv.org/html/2605.14111#bib.bib18),而强化学习方法已被用于建模医疗运营[19](https://arxiv.org/html/2605.14111#bib.bib19), [15](https://arxiv.org/html/2605.14111#bib.bib25)。这些方法没有解决实证发现:这些专家接收的信息往往不准确且容易发生不可预测的变化[2](https://arxiv.org/html/2605.14111#bib.bib22)。 为了应对这种不确定性,基于POMDP的药物短缺期间医疗中心决策模型已被使用,但其范围有限[20](https://arxiv.org/html/2605.14111#bib.bib2)。POMDP方法旨在寻求一种策略,能够在面对世界状态和行动效果不确定性时实现最优解决方案,即最大化奖励的行动序列。挑战在于,在最坏情况下,找到这样的策略在计算上是困难的[12](https://arxiv.org/html/2605.14111#bib.bib6)。基于点的方法[13](https://arxiv.org/html/2605.14111#bib.bib11), [9](https://arxiv.org/html/2605.14111#bib.bib9), [16](https://arxiv.org/html/2605.14111#bib.bib8)和深度RL-POMDP混合方法[6](https://arxiv.org/html/2605.14111#bib.bib17)通过采样或近似来缓解复杂性,但需要大量训练数据且缺乏可解释性,而这对于专家理解和信任推荐至关重要。我们在模型中试图解决这些问题。 *有限理性下的人类决策者* 另一个视角来自对人类决策者的研究,特别是开创性著作《有限理性理论》[17](https://arxiv.org/html/2605.14111#bib.bib3)。与标准POMDP公式相比,有限理性认为人类解决问题受限于认知约束、时间约束和不完美信息,导致倾向于寻找“满意”的解决方案,而非最优方案。 Simon的研究还指出,面对有限理性,专家问题解决者依赖基于经验的捷径,而不是详尽搜索最优解[17](https://arxiv.org/html/2605.14111#bib.bib3)。对我们工作最重要的是,他的研究认为专家解决问题是一种快速模式识别形式,减少了对逐步搜索解决方案的需求。简而言之,专家以不同方式看待问题,本质上与新手相比具有不同的观察函数,使他们能够简化或消除搜索解决方案的过程。基于识别启动决策(RPD)模型以类似方式建模决策过程。它认为专家决策的标志是能够识别环境中的显著方面,并根据经验分配推理努力[7](https://arxiv.org/html/2605.14111#bib.bib26), [8](https://arxiv.org/html/2605.14111#bib.bib27)。 *问题分解与注意力* 人类问题解决的另一个关键方法是分解问题为更容易解决的子问题。这通过减少认知负荷来应对问题解决者面临的认知约束。它还可以促进识别具有已知解决策略的常见子问题。经典分解方法将决策问题划分为更小的子问题,并对每个子问题应用相同的过程。分解和结构化模型[14](https://arxiv.org/html/2605.14111#bib.bib24)将状态分解为弱耦合变量,但仍然依赖统一的过程。 问题解决者观察或关注的内容与分解的概念密切相关。解决子问题需要转移注意力。关于焦点和注意力的研究表明,序列决策中的注意力机制可以提高高维任务中的性能[11](https://arxiv.org/html/2605.14111#bib.bib16), [6](https://arxiv.org/html/2605.14111#bib.bib17)。进一步的工作[4](https://arxiv.org/html/2605.14111#bib.bib4)同样表明,有效的智能体可以使用注意力分配策略将计算导向高影响的状态变量。关于任意时间算法的类似工作侧重于控制何时在资源约束下停止计算,通常假设固定的问题表示[5](https://arxiv.org/html/2605.14111#bib.bib20)。从认知角度来看,这反映了一种管理计算持续时间的策略,而非管理要推理什么。 我们对专家药师的访谈揭示了一种分解形式。他们首先通过一个识别或模式驱动过程将问题分解为高风险药物和低风险药物集合。然而,与经典分解不同,他们采用非均匀的方法来解决这些子问题,将更多认知和人员资源投入到高风险案例的解决方案中。这种分解特别影响了药师关注的内容,具体来说减少了决策者首先需要关注的内容。 这种高风险和低风险药物的分解与决策理论工作[1](https://arxiv.org/html/2605.14111#bib.bib23)相关,该工作将非均匀性作为抽象层,使专家能够在某些条件下忽略状态的某些元素。换句话说,专家通过将注意力转移到状态的某些元素来集中认知努力。 这种策略的有效性取决于识别哪些药物需要立即关注和更广泛的解决问题。 为了探索这个问题,我们使用REINFORCE风格更新[18](https://arxiv.org/html/2605.14111#bib.bib14)来调整紧急性特征上的注意力权重。这使得模型能够学习哪些优先级因素支持不确定性下的稳定决策,同时保留可解释的注意力机制。 ## 药物短缺管理的领域特征 药物短缺管理是一个高维、部分可观察的决策问题,其特点是噪声信号、不确定的供应动态和高风险结果。基于对来自美国不同医疗中心的四名药师的半结构化访谈,我们确定了塑造我们基于专家认知框架的关键特征。真实使用量、库存和供应商沟通等关键信号是嘈杂的、延迟的、部分可观察且不准确的。由于上游中断和供应商方面的信息不对称,供应商交付估计频繁变化,且随着时间的推移准确性没有提高[2](https://arxiv.org/html/2605.14111#bib.bib22)。决策具有长期和路径依赖效应:实施使用限制等行动会在数周或数月内改变未来需求。结果具有不对称性和高风险性,因为短缺可能直接影响患者护理。药师还在认知约束下工作,迫使他们对一小部分紧急药物进行优先关注,而不是对所有药物进行详尽的优化。 ## 药物短缺场景示例 我们用一个代表性例子说明由此产生的复杂性。考虑一个管理单一类别19种药物的医院药房¹。¹注意:这是一个简化例子,实际上有数百种肿瘤药物,总体而言,一家医院可能有超过一千种药物处于活跃轮换中。每周,药师必须决定哪些药物需要立即关注以及采取什么行动。这个决策问题涉及多个状态变量、不确定动态和相互竞争的目标。 为每种药物确定的键状态变量包括手头数量(QOH),即当前库存水平,以及使用率(UTZ),即每周消耗量。药师跟踪“跑道”,定义为剩余供应周数(QOH除以UTZ),这是评估短缺风险的主要指标。他们同时监控供应商信息,包括预期交付日期和可靠性。 药师采取的行动包括审计库存以减少不确定性、实施使用限制(称为有限医疗替代方案LMA²。²有两种LMA变体:软LMA略微减少使用,而硬LMA严格执行。)、在主要供应商和替代供应商之间切换、直接联系制造商获取信息、或通过储备仓库、医院贷款网络或灰色市场进行直接采购。 每种行动都有成本和收益,必须与不确定的未来权衡。审计花费员工时间,但减少不确定性。LMA延长跑道,但可能影响患者护理质量。切换供应商可能提高可靠性,但带来过渡风险。紧急采购成本高,但防止缺货(库存为零)。挑战在于,即使在这个19种药物和每种药物有多种可能行动的示例中,决策空间对于长期详尽规划变得不可行,但药师在时间压力下每周做出这些决策,很少出现必需药物缺货的情况。 部分可观察增加了复杂性。药师从不直接观察药物供应的真实状态,必须从噪声信号中推断。可用信息的质量差异很大,因为供应商信号是出了名的嘈杂和不完整。审计提供高置信度信号,而被动的监测则随时间推移导致不确定性增加。这种复杂性激发了一个框架,该框架选择性地在药物之间分配推理努力,而不是在完整状态空间上进行规划。 ## 模型 POMDP定义了底层动态,而注意力决定了规划中考虑状态的哪个子集。然而,仅凭POMDP不足以捕捉专家实际上如何在这个领域运作或他们用于解决问题的认知框架。我们的目标不是更高效地解决一个固定的POMDP或近似一个在完整状态空间上的最优策略。相反,我们解决一个不同的决策问题:在给定时间,确定环境的哪些部分值得进行成本高昂的推理。 标准POMDP公式隐含地假设完整状态空间始终与决策相关,近似
相似文章
GraphDiffMed: 知识约束的差异化注意力结合药理学图先验用于药物推荐
GraphDiffMed是一个药物推荐框架,它使用双尺度差异化注意力和药理学图先验来提高在EHR数据上的推荐质量和安全性。在MIMIC-III上的实验显示出相对于基线的持续改进。
面向阿尔茨海默病患者的药物感知金融剥削检测——基于边缘感知交互风险建模
本文提出了一种药物感知框架,将用药依从性数据与交易监控相结合,以检测阿尔茨海默病患者的认知风险金融事件,并在药物诱导的脆弱窗口期内显示召回率提升。
优化数字治疗干预:在内生依从性下的在线学习
本文提出了一个数字治疗决策支持框架,将患者依从性建模为内生变量,并利用在线学习优化治疗建议,实现了次线性遗憾。
SafeRx-Agent:一个基于知识的多智能体框架,用于安全且可解释的药物推荐
介绍了SafeRx-Agent,一种基于知识的多智能体框架,用于安全且可解释的药物推荐,可生成细粒度的ATC代码预测,同时控制药物相互作用和禁忌症,在MIMIC-III和MIMIC-IV数据集上进行了评估。
有限理性、对冲与泛化
本文通过有限理性决策理论的视角研究学习中的泛化问题,其中学习者的响应规律在训练损失和样本依赖性之间产生权衡。作者表明这种权衡由 f-散度正则化器控制,并且泛化可以从学习者的对冲行为中得到验证。