基于政策即代码搜索的医疗机制:应对策略性提供者响应
摘要
本文重新将医院机制设计表述为语言模型的程序合成,使用多智能体模拟器(Medi-Sim)在策略性提供者响应下评估政策规则。它展示了跨提供者渠道的压力迁移,并合成了一种可检查的混合目标程序,该程序减少了向上编码和拒绝,同时保留了资金。
arXiv:2605.30680v1 公告类型:新
摘要:医疗机制与其引发的策略性提供者响应密不可分:现有的医疗人工智能基准测试固定了这种响应,因此无法通过它们产生的均衡来评估机制。我们将医院机制设计重新构想为语言模型的程序合成:有类型、可检查的规则程序由多智能体模拟器Medi-Sim执行和评分,该模拟器包含五个策略性提供者渠道(编码、选择、延迟、努力、分诊)。一项激励扫描恢复了经典健康经济学发现作为相邻制度——在利润压力下的向上编码和低复杂度患者选择,以及古德哈特式漂移,其中测量性能与真实结果变得负相关——而单一审计杠杆揭示了压力迁移:关闭编码渠道使低复杂度选择增加了一倍以上。LLM引导的进化代码搜索在同一规则程序空间中合成了一种可检查的混合目标程序,该程序消除了向上编码,将拒绝减半,并保留了大部分以利润为导向的基线资金。
查看缓存全文
缓存时间: 2026/06/01 09:24
# 战略提供者响应下的策略即代码搜索中的医疗机制 来源:https://arxiv.org/html/2605.30680 王梓涵1 徐翔1 查洪源1 李文浩2 1香港中文大学(深圳) 2同济大学 ###### 摘要 医疗机制与其所引发的战略性提供者响应密不可分:现有的医疗AI基准将这种响应固定下来,因此无法通过其产生的均衡来评估机制。我们将医院机制设计重新定义为语言模型的程序合成:类型化、可审查的规则程序由Medi-Sim执行和评分,Medi-Sim是一个多智能体模拟器,包含五个战略性提供者渠道(编码、选择、延迟、努力、分诊)。一项激励扫描恢复了经典的健康经济学发现,表现为相邻的机制区间——在利润压力下的过度编码和低复杂度患者选择,以及古德哈特式漂移(测量绩效与真实结果呈负相关)——并且单一审计杠杆暴露了*压力迁移*:关闭编码渠道会使低复杂度选择增加一倍以上。LLM引导的进化代码搜索在相同的规则程序空间内,合成了一种可审查的混合目标程序,该程序消除了过度编码,将拒绝率减半,并保留了大部分利润导向基线的资金。 战略提供者响应下的策略即代码搜索中的医疗机制 王梓涵1 徐翔1 查洪源1 李文浩2 1香港中文大学(深圳) 2同济大学 ## 1 引言 按病例付费变成了编码规则,审计重塑了患者选择,质量奖金将努力转向测量得分:在每种情况下,医院机制都体现为管理者指令与提供者最佳响应的*组合*,而这个组合——而非文本——决定了计费、可及性和结果。111论文中使用的特定医疗术语——包括医院DRG和DRG式到达、医院CMI、医院KPI和KPI引导、五个提供者响应渠道(编码、选择、延迟、努力、分诊)、编码和测量差距、镀金、偷工减料、择优录取、识别-生产-结算(IPS)循环以及医院策略DSL——收集在附录L的术语表中(https://arxiv.org/html/2605.30680#A12)。我们关注的核心动态是*压力迁移*——战略性最佳响应的多渠道特征,即当一条规则关闭一个提供者渠道时,相同的激励会浮现到相邻渠道,因此,针对固定提供者评分规则的基准会系统性地过高奖励那些效果是转移而非消除扭曲的机制。因此,我们在一个闭环的战略性响应模拟器中评估医院机制,并且由于受监管的部署还要求每条规则保持逐行可审计,我们将管理者的策略类别限制为可审查的、类型化的规则程序——将机制设计重新定义为受限管理界面上的*程序合成*。压力迁移在三十年的医疗改革中清晰可见。医院通过重新编码而非治疗更多患者来应对Medicare诊断定价变化(Dafny, 2005 (https://arxiv.org/html/2605.30680#bib.bib9));Medicare Advantage风险评分通过编码强度增长快于按服务收费评分(Kronick and Welch, 2014 (https://arxiv.org/html/2605.30680#bib.bib2));英国NHS等待时间目标既改变了报告的等待时间,也改变了产生等待时间的手术(Bevan and Hood, 2006 (https://arxiv.org/html/2605.30680#bib.bib15); Propper et al., 2010 (https://arxiv.org/html/2605.30680#bib.bib5))。机器学习解读直接明了:每个都是通过数据生成过程中的战略性响应转变实现的*古德哈特式漂移*(Manheim and Garrabrant, 2018 (https://arxiv.org/html/2605.30680#bib.bib34)),其形式由战略性分类和表演性预测形式化(Hardt et al., 2016 (https://arxiv.org/html/2605.30680#bib.bib30); Perdomo et al., 2020 (https://arxiv.org/html/2605.30680#bib.bib31))。现有基准无法看到这种动态。医疗AI环境在固定环境中训练临床级别的策略,提供者被动(Komorowski et al., 2018 (https://arxiv.org/html/2605.30680#bib.bib27); Yu et al., 2021 (https://arxiv.org/html/2605.30680#bib.bib42); Gottesman et al., 2019 (https://arxiv.org/html/2605.30680#bib.bib26)),将提供者行为视为外生噪声。自动化机制设计系统确实建模了战略性响应,但实例化的是税收、拍卖或通用分配,而非医疗原语——报销、审计、护理团队队列、测量质量——并且其搜索的控制器是黑盒神经网络,无法逐行审计(Zheng et al., 2022 (https://arxiv.org/html/2605.30680#bib.bib23); Dütting et al., 2024 (https://arxiv.org/html/2605.30680#bib.bib29); Sandholm, 2003 (https://arxiv.org/html/2605.30680#bib.bib6))。两者都没有在同一轮次中通过实现的可及性、报销和绩效来评分管理者规则和战略性提供者响应。我们在Medi-Sim中实例化了缺失的循环。管理者规则作为*策略即代码*编写:类型化、可执行的表达式,使用一组固定的已批准杠杆(激励系数、审计强度、奖金池、绩效得分权重),可逐行审计(Rudin, 2019 (https://arxiv.org/html/2605.30680#bib.bib4)),并暴露了医疗器械良好机器学习实践(GMLP)所强调的那种清晰、情境相关的信息(U.S. Food and Drug Administration et al., 2021 (https://arxiv.org/html/2605.30680#bib.bib3))。提供者通过五个命名的渠道响应——编码、选择、延迟、努力和分诊——源自健康经济学(Ellis, 1998 (https://arxiv.org/html/2605.30680#bib.bib8); Ma, 1994 (https://arxiv.org/html/2605.30680#bib.bib7); Kuhn and Siciliani, 2008 (https://arxiv.org/html/2605.30680#bib.bib11); Holmstrom and Milgrom, 1991 (https://arxiv.org/html/2605.30680#bib.bib13)),并且识别-生产-结算(IPS)循环将规则、响应和结果保持在同一轮次中,将结算(报销、得分、奖金)视为机制的一部分,而非报告层。同一循环也是搜索接口:因为候选者是在小的状态特征集上的类型化代码表达式,有用的变异是代码上的*语义*编辑,而非梯度步骤或随机重写——在这种机制下,LLM引导的代码搜索优于非引导的遗传算子(Romera-Paredes et al., 2024 (https://arxiv.org/html/2605.30680#bib.bib21); Lehman et al., 2022 (https://arxiv.org/html/2605.30680#bib.bib40); Novikov et al., 2025 (https://arxiv.org/html/2605.30680#bib.bib22)),同时逐行可审计性排除了神经控制器。因此,语言模型在安全惩罚的闭环适应度下充当规则程序上的代码编辑算子;提供者智能体是参数化的响应类,而非LLM。三个实验闭环了循环。一项激励扫描恢复了经典发现,表现为一个相图的相邻区间——利润压力下的过度编码和低复杂度选择,平衡内部的古德哈特漂移——而行政杠杆扫描暴露了压力迁移:审计将压力从编码转向选择,而奖金池和KPI引导的灵活容量揭示了代理和等待时间失败。LLM引导的代码搜索在相同的规则接口上,将一个多样化的热启动库提炼成一个可审查的混合目标程序,该程序消除了过度编码,将拒绝率减半,并保留了大部分利润导向基线的资金;消融研究表明热启动先验和LLM引导的提炼是共同必要的。 #### 贡献。(1)一个用于高赌注机制设计的LLM程序合成测试平台。我们将提供者侧机制设计重新定义为在类型化的管理DSL上的LLM引导程序合成,其中神经控制器被审计要求排除,LLM在安全惩罚的多智能体轮次中充当可审查规则程序上的代码编辑算子。(2)一个闭环的战略性响应基准。我们发布Medi-Sim,一个识别-生产-结算模拟器,将管理者规则、五个战略性提供者渠道以及实现的可及性/报销/绩效保持在同一轮次中,暴露检测战略性响应扭曲所需的渠道级诊断。(3)压力迁移作为LLM引导代码搜索可解决的基准现象。经典的医疗失败占据了一个机制空间的相邻区间,并且LLM引导的对多样化热启动库的提炼可以在减少目标操纵的同时监控压力是否在相邻渠道上重新出现;在主要保留的混合策略比较中,搜索到的程序在不增加拒绝率的情况下关闭了编码渠道。消融研究将效果归因于先验和LLM代码编辑的共同作用。 ## 2 问题形式化 我们将医院建模为TT个周期上的有限视野随机斯塔克尔伯格博弈。医院管理者是领导者,在每个步骤承诺一个机制动作utu\_t;提供者群体是跟随者,从一个下面描述的可处理响应类ΠP\\Pi\_P中抽取。贯穿全文,JJ索引护理团队。 #### 状态和领导者动作。医院状态XtX\_t收集资金FtF\_t、拥挤度QtQ\_t、每个团队的队列{Qj,t}\\{\\mathcal{Q}\_{j,t}\\}、上一期的KPI向量以及声誉Rept\\mathrm{Rep}\_t(方程(6),附录B)。领导者动作utu\_t收集激励系数(αt,βt)(\\alpha\_t,\\beta\_t)表示提供者的财务和质量敏感性、总容量和灵活容量(Bttot,Btflex)(B^{\\mathrm{tot}}\_t, B^{\\mathrm{flex}}\_t)、奖金池BtpoolB^{\\mathrm{pool}}\_t和softmax锐度κ\\kappa、KPI权重(wH,wW,wrej,wC)(w\_H, w\_W, w\_{\\mathrm{rej}}, w\_C)分别针对健康/等待/拒绝/成本、审计强度qtq\_t以及可选的KPI引导开关ξt\\xi\_t(方程(7),附录B)。 #### 跟随者动作:五个扭曲渠道。每个团队jj观察其队列、容量信号、疲劳程度和激励,并选择一个动作,该动作分解为五个渠道:aj,t=(g^i,t⏟编码,dij,tacc⏟选择,dij,tdef⏟延迟,Eij,t⏟努力,Rij,t⏟分诊/资源),a\_{j,t} = \\big( \\underbrace{\\hat{g}\_{i,t}}\_{\\textit{编码}}, \\underbrace{d^{\\mathrm{acc}}\_{ij,t}}\_{\\textit{选择}}, \\underbrace{d^{\\mathrm{def}}\_{ij,t}}\_{\\textit{延迟}}, \\underbrace{E\_{ij,t}}\_{\\textit{努力}}, \\underbrace{R\_{ij,t}}\_{\\textit{分诊/资源}} \\big), (1) 索引候选患者ii。这正是健康经济学文献中提供者战略性响应医疗机制的五个渠道(Ellis, 1998; Ma, 1994; Dafny, 2005; Kuhn and Siciliani, 2008; Holmstrom and Milgrom, 1991),它们与第5节中报告的扭曲测量一一对应。五渠道选择覆盖了识别-生产-结算循环暴露的主要边际,而不会使响应模型过于宽泛以至于无法诊断逐渠道行为。驱动这五个渠道的提供者侧团队效用为:Uj,t=αt(Revj,t−Cj,t)+βtHj,t+θBonusj,t−ν[max(0,Loadj,t−Eˉj)]2,U\_{j,t} = \\alpha\_t(\\mathrm{Rev}\_{j,t} - C\_{j,t}) + \\beta\_t H\_{j,t} + \\theta \\, \\mathrm{Bonus}\_{j,t} - \\nu \\, \\big[ \\max(0, \\mathrm{Load}\_{j,t} - \\bar{E}\_j) \\big]^2, (2) 其中θ>0\\theta > 0是已实现奖金的固定权重,ν>0\\nu > 0是超过每个团队负载容量Eˉj\\bar{E}\_j的凸疲劳惩罚。 #### 有限理性响应类。我们将跟随者限制为一个可处理的响应类ΠP={πPφ:φ∈Φ}\\Pi\_P = \\{\\pi\_P^{\\phi}: \\phi \\in \\Phi\\},由可解释的行为系数φ\\phi参数化,这些系数控制每个渠道下团队动作随方程(2)局部梯度移动的激进程度;函数形式在第3节中给出。这是一个深思熟虑的设计选择,而非均衡主张:它保持了逐渠道的可识别性,使每个渠道可审查,并与第5节中用于验证模拟器的比较静态预测相匹配。 #### 斯塔克尔伯格目标。一个机制仅通过跟随者响应引发的轮次分布来评估。领导者优化一个选定的社会目标o∈{welfare,profit,mixed}o \\in \\{\\mathrm{welfare}, \\mathrm{profit}, \\mathrm{mixed}\\},每个目标具有基于种子的折扣回报:Go(πA,πP∗;s)=∑t=1Tγdt−1rAo(Xt,ut),G^{o}(\\pi\_A, \\pi\_P^{\*}; s) = \\sum\_{t=1}^{T} \\gamma\_d^{t-1} \\, r\_A^{o}(X\_t, u\_t), (3) 并求解:πAo,∗∈argmaxπA∈ΠA{Es,πP∗[Go]−λunsafeE[V]−λvarVars[Go]},\\pi\_A^{o,\*} \\in \\arg\\max\_{\\pi\_A \\in \\Pi\_A} \\big\\{ \\mathbb{E}\_{s, \\pi\_P^{\*}}[G^{o}] - \\lambda\_{\\mathrm{unsafe}} \\mathbb{E}[V] - \\lambda\_{\\mathrm{var}} \\mathrm{Var}\_s[G^{o}] \\big\\}, (4) 其中πP∗∈ΠP(πA)\\pi\_P^{\*} \\in \\Pi\_P(\\pi\_A)是有限理性最佳响应,VV聚合了安全/扭曲诊断(不安全的等待、高复杂度转诊、过度编码、拒绝、资不抵债),方差项是种子可靠性正则化器(附录B)。一个机制只有在诱导的提供者行为在每个诊断上都可接受、在平均种子*且*在种子间可靠时才算成功。我们将策略类别ΠA\\Pi\_A的选择推迟到第4节,该节通过将ΠA\\Pi\_A实例化为类型化可审查程序类来满足可审计性约束,并通过AlphaEvolve风格的代码搜索来求解方程(4)。 ## 3 Medi-Sim环境 参见图注 图1:Medi-Sim IPS和策略即代码概述。顶部:医院管理者编写事件级别的前台、病房和计费/审查规则;星号标记由AlphaEvolve精炼的杠杆。中部:临床医生程序在锁定规则内通过识别-生产-结算循环响应。底部:仪表板报告渠道级诊断,引导策略搜索。Medi-Sim使用图1所示的策略接口实现了第2节的识别-生产-结算(IPS)分解:医院管理规则在事件中固定,临床医生侧程序在这些规则内响应,由此产生的轮次仪表板暴露了与算法A.1(附录A中给出了逐周期循环)相同的扭曲渠道。我们依次描述每个原语。 ### 3.1 识别:到达、分类和编码差距 在每个步骤,默认的医院DRG式到达过程222医院DRG式相似文章
策略感知模拟器学习的理论基础与高效算法
本文提出了一种用于基于模型的强化学习中模拟器学习的策略鲁棒性目标,将其建模为模型玩家与对抗性策略玩家之间的极小极大博弈。提供了理论保证和可证明收敛的算法,实验表明预测误差在关键区域降低1.5-2.2倍,并提升了策略从模拟到真实世界的迁移效果。
代码即代理框架
本综述论文提出了一个统一视角,将代码视为代理系统中代理推理与执行的操作基础,围绕三个层次组织讨论:框架接口、机制与扩展。
基于局部披露的具有策略性主体的离线策略评估
本文研究当决策主体(智能体)为了回应策略而策略性地修改其协变量时的离线策略评估(OPE)。该方法利用事后解释进行局部披露,以揭示智能体的前策略协变量,并构建策略价值的双重稳健估计量。
SafeRx-Agent:一个基于知识的多智能体框架,用于安全且可解释的药物推荐
介绍了SafeRx-Agent,一种基于知识的多智能体框架,用于安全且可解释的药物推荐,可生成细粒度的ATC代码预测,同时控制药物相互作用和禁忌症,在MIMIC-III和MIMIC-IV数据集上进行了评估。
模拟、推理、决策:基于LLM的科学推理驱动仿真决策
密歇根大学的研究人员推出了MechSim——一个基于机制的神经符号推理框架,使LLM智能体能够对科学模拟器的内部假设、依赖关系和执行行为进行推理,而非将其视为黑盒。该框架在医疗、金融和公共政策等高风险领域提升了解释质量与决策可靠性。