RubricsTree:跨健康记忆与医疗技能的个人健康智能体可扩展且不断演进的开放式评估
摘要
RubricsTree 提出了一种可扩展且与专家对齐的个人健康智能体评估框架,使用超过100个原子布尔规则,在Gemini、GPT和Qwen模型系列的HealthBench上实现了高达66%的相对提升。
arXiv:2606.18203v1 公告类型:新
摘要:借助大语言模型(LLM)赋能的个人健康智能体,结合用户健康(传感器)指标,为缓解全球医疗资源获取的不平等提供了一条有前景的途径。然而,大规模临床部署仍然受限于开放式评估瓶颈:医生标注可靠但成本高、不可扩展,而LLM作为评判者的评估可扩展但主观、不一致,有时在临床层面存在偏差。我们提出了RubricsTree,这是一个可扩展的评估框架,包含超过100个原子化、临床上可验证的布尔规则的专家对齐分层分类体系,这些规则源自4000个真实用户查询的洞察,并通过由一位资深医生领导的专家小组进行的迭代人机协同筛选协议不断演进。一个上下文感知的自适应路由器仅激活每个查询相关的自动加权规则子集,从而提供可扩展评估所需的吞吐量,同时保证与专家对齐的质量。通过系统性的元评估,我们表明RubricsTree (i)在具有挑战性的开放式查询上,在专家对齐方面大幅超越了强大的大规模评估基线;(ii)可靠地惩罚上下文退化的响应;(iii)当用作结构化指令、文本反馈或用于性能优化的训练奖励时,在Gemini、GPT和Qwen模型系列的HealthBench上实现了高达约66%的相对提升。因此,RubricsTree为产品级个人健康AI的持续优化提供了可扩展、可审计且不断演进的评估基础设施。
查看缓存全文
缓存时间: 2026/06/17 05:42
# 可扩展且持续演进的个人健康智能体开放式评估框架:覆盖健康记忆与医学技能 来源:https://arxiv.org/html/2606.18203 \reportnumber\correspondingauthor 通讯作者:\{zhangwiz, aametwally\}@google\.com\. Weizhi Zhang Google Research University of Illinois Chicago 实习期间于Google完成工作 通讯作者 Hamid Palangi Google Research Ben Graef Google Research A\. Ali Heydari Google Research Simon A\. Lee Google Research Salman Rahman Google Research Ray Luo Google Research Zeinab Esmaeilpour Google Research Erik Schenck Google Research Chloe Zhang Google Research Yamin Li Google Research Menglian Zhou Google Research Philip S\. Yu University of Illinois Chicago Daniel McDuff Google Research Lindsey Sunden Google Research Mark Malhotra Google Research Shwetak Patel Google Research Ahmed A\. Metwally Google Research 通讯作者
###### 摘要
基于大语言模型(LLM)并融合用户健康(传感器)指标的个人健康智能体,为解决全球医疗可及性差距提供了有前景的路径。然而,大规模临床部署仍受制于一个开放式评估瓶颈:医生标注可靠但成本高、难扩展,而LLM作为评估者虽可扩展却主观性强、不一致且有时与临床要求不符。我们提出RubricsTree,这是一个可扩展的评估框架,包含一个*与专家对齐*的层次化分类体系,涵盖超过100个原子化、可临床验证的布尔量规。该分类体系通过对4000个真实用户查询的洞察,经由一位经验丰富医生领导的专家小组通过迭代式人在回路策展流程持续演进。一个上下文感知的自适应路由器每条查询仅激活相关且自动加权的量规子集,从而在保持与专家对齐质量的同时,实现可扩展评估所需的高吞吐量。通过系统化的元评估,我们表明RubricsTree:(i)在挑战性开放式查询上与专家对齐方面显著超越一个强大规模评估基线;(ii)能可靠地惩罚上下文退化的响应;(iii)当用作结构化指令、文本反馈或训练奖励以进行性能优化时,在HealthBench上对Gemini、GPT和Qwen模型家族可实现高达约66%的相对增益。因此,RubricsTree为产品级个人健康AI的持续优化提供了所需的可扩展、可审计且可演进的评估基础设施。
请参阅图注 图1:个人健康智能体(PHA)开放式评估的总体框架。(A)数据源及PHA流水线。(B)原则基线(Principle Baseline)与RubricsTree的评估对比。(C)RubricsTree上的上下文感知自适应路由机制。(D)在HealthBench-Hard上对Gemini和GPT-5.4模型家族的下游优化。(E)通过三种扰动设置下四个临床场景中的神谕压力测试进行元评估。
## 1 引言
来自可穿戴传感器和临床生物标志物记录的连续、个性化健康数据的快速积累,催化了智能个人健康智能体(PHA)的发展(heydari2025anatomy;zhang2025personaagent;khasentino2025personal;zhang2026memorycd)。通过将大语言模型(LLM)的医学知识和推理能力与心率变异性、睡眠模式、身体活动等实时数据流相结合,PHA能维护相关的用户健康记忆,执行多步数值推理,并提供上下文感知的健康建议。其民主化潜力是具体的:仅在美国,预约新就诊医生的平均等待时间常常超过三到四周(beetham2026medicare;sun2023low;auty2022medicaid)。通过提供即时、数据驱动的干预措施、分诊方案和行为改变指导,PHA可以将医疗模式从偶发、反应性的治疗转变为持续、个性化的健康管理。然而,这种自主个人健康智能体在现实世界的部署完全取决于健壮、可扩展且与临床对齐的评估框架的可用性。
历史上,医学语言模型的评估一直由静态多选题(MCQ)基准主导,如MedQA(jin2021disease)和MedMCQA(pal2022medmcqa)。虽然此类基准能客观测试基础知识的检索能力,但它们不适合智能体场景。如表1(https://arxiv.org/html/2606.18203#S1.T1)所概述,它们本质上缺乏评估开放式生成或多步智能体行为的能力。现实世界的健康查询是开放式的,需要综合纵向个人背景,并在多轮工具增强推理中展开,这些都无法通过从多个选项中进行强制选择来观察(cui2025timer;arias2025automatic)。因此,开放式个人健康评估面临一个两难境地。一方面,详尽的专家标注能提供高临床保真度,但代价高昂且不可扩展(wu2025automated)。HealthBench(arora2025healthbench)是最新的开源开放式健康基准,动员了数百名获得委员会认证的医生对大约五千段对话进行标注,使用了超过四万八千个定制量规标准。如表1(https://arxiv.org/html/2606.18203#S1.T1)所示,虽然HealthBench在专家对齐和评估一致性方面提供了黄金标准,但由于昂贵且长期的专家标注过程,它缺乏可扩展性。它仅是一个静态基准,无法覆盖健康评估中的每一个子领域或边缘情况,尤其是在智能体开发周期中。另一方面,通用的LLM作为评判者协议可以自动给出关于一般健康方面的评判分数。作为迈向可扩展、真实世界健康应用的关键一步,Auto-Eval(mallinar2026scalable)在代谢健康查询中采用自适应精度布尔验证进行用户数据覆盖评估,但仅适用于数据覆盖评估,而非真实的开放式个人健康查询。基于原则的基线(Principle Baseline)(winslow2025principle)通过提供一种端到端、经过产品验证的评估方法(通过大规模用户交互研究验证)推进了医疗健康AI评估。通过对超过13000名用户的应用,它成功识别了传统评估完全忽略的许多用户需求。然而,如表1(https://arxiv.org/html/2606.18203#S1.T1)所强调,这些通用的自动评判者存在严重的运行间不一致性,并且在挑战性查询上与专家判断仅部分对齐。因此,缩小这一差距不仅需要一个更好的评估器,还需要一个系统的元评估框架,该框架同时实现可扩展性、一致性和专家对齐,以识别为个人健康开发的AI智能体中的真正问题。
表1:医学和健康领域中基准与评估框架的比较。
| 方法 | 开放式 | 智能体行为 | 医学知识 | 沟通 | 安全性 | 个性化 | 事实性 | 准确性 | 评估质量:可扩展性 | 一致性 | 专家对齐 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| MedQA (jin2021disease) | ✗ | ✗ | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ | ✓ |
| MedMCQA (pal2022medmcqa) | ✗ | ✗ | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ | ✓ |
| HealthBench (arora2025healthbench) | ✓ | ✗ | ✓ | ✓ | ✓ | ✗ | ✓ | ✓ | ✗ | ✓ | ✓ |
| Auto-Eval (mallinar2026scalable) | ✓ | ✗ | ✗ | ✗ | ✓ | ✗ | ✗ | ✓ | ✓ | ✗ |
| 原则基线 (winslow2025principle) | ✓ | ✓ | ✗ | ✓ | ✗ | ✓ | ✓ | ✗ | ✓ | ✓ | ✗ |
| 我们的方法 (RubricsTree) | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- ✓: 完全覆盖;✓✗: 部分覆盖;✗: 未覆盖。
- *医学知识*:医学知识的广度和深度。*沟通*:以患者为中心的专业沟通。*安全性*:临床安全防护(例如,紧急转诊、执业范围)。*个性化*:纵向用户个性化。*事实性*:基于用户自身数据的事实依据。*准确性*:数值/指标准确性。*智能体行为*:多步智能体工具使用轨迹的评估。*可扩展性*:扩展至高容量评估的能力。*一致性*:运行间一致性。*专家对齐*:与专家对齐以识别问题。更详细的相关工作说明见附录A(https://arxiv.org/html/2606.18203#A1)。
为此,我们提出RubricsTree,其核心贡献是一个*与专家对齐*的层级化分类体系,由原子化、可临床验证的量规构成。该分类从宏观能力(例如,专业医学技能、用户健康记忆)向下流动到自动加权的临床叶节点,每个叶节点都实现为一个基于具体临床参考的二元验证函数。如图1(https://arxiv.org/html/2606.18203#S0.F1)所示,RubricsTree不是要求语言模型直接评定响应的“有害性”,而是基于具体参考点限制评判者。例如,它可以沿着树验证临床必要数据点的存在与否,从而在自动评估的吞吐量下恢复医生标注的严谨性。该分类体系是一个迭代式、人在回路的演进流水线的产物,由一个由*首席医生*领导的领域专家策展小组(专家小组组成详见附录B.2(https://arxiv.org/html/2606.18203#A2.SS2))共同审查了4000个真实的PHA用户查询,并共同决定了RubricsTree的最终结构和粒度。为了使这个与专家对齐的树在规模上可用,一个上下文感知的自适应路由器仅激活每条查询在上下文上相关的量规子集;我们将此路由引擎视为可扩展的基础设施,临床可靠性的来源仍然是专家。除了评估器之外,我们进一步贡献了一个系统的元评估协议,该协议旨在通过将评估本身视为测量对象来评估评估器,审计与专家评分者的一致性、对上下文扰动的鲁棒性、跨评判者设置的不变性以及专家标注数据集中的下游优化效果。实证表明,RubricsTree提供了:❶ 显著的专家对齐增益,针对一个由六位专家组成的独立评估小组(附录B.2(https://arxiv.org/html/2606.18203#A2.SS2)),总体ICC3达到0.876,Cohen's κ达到0.787,而行业原则基线(winslow2025principle)分别为0.291和0.431;❷ 健壮的上下文扰动检测,在两种重要的扰动设置(不适当指令和不准确用户数据)上,检测率超过93%,而原则基线经常遗漏这些损坏;❸ 一致的下游优化效用,通过在HealthBench上对Gemini和GPT-5.4模型家族进行结构化指令提示或响应优化,实现相对增益从+18.6%到+66.4%,当将RubricsTree作为强化学习奖励时,对Qwen模型实现高达+66.7%的改进。我们的主要贡献是:
- **与专家对齐的量规资源**。一个层级化量规树,包含100多个原子化、可临床验证的布尔量规,由医生专家在4000个真实世界PHA用户查询上演进而来;每个叶节点都基于医学文献或得到医生专家的支持。
- **系统化的元评估协议**。一个新颖且可复用的元评估系统,涵盖针对专家小组的ICC3和Cohen's κ、一个可扩展的基于神谕的上下文扰动元评估设计(新的检测率和平均惩罚指标),以及评判模型设置不变性,系统探索如何评估评估器。
- **专家对齐与全面评估**。相比行业基线的显著专家对齐增益,在退化上下文设置中近乎完美的扰动检测,以及使用RubricsTree作为结构化指令提示和优化奖励时,对不同模型家族在HealthBench上高达约66%的一致提升。
请参阅图注 图2:RubricsTree架构及其专家参与的演进流水线。层级化分类从核心能力通过评估子方面流向原子化布尔叶节点,每个节点都基于医学文献并由委员会认证的医生验证。在推理时,自适应路由函数激活一个上下文相关的量规子集L_active,该子集通过自动权重聚合以产生可扩展的评估分数和推理反馈。
## 2 RubricsTree
RubricsTree旨在将复杂的、开放式的个人健康评估分解为可验证的、原子化的布尔量规。通过一个专家策展的、追踪超过100个不同临床标准的层级化分类体系,该框架强制评估者(专家或LLM评分者)客观地验证特定的医学数据点或参考文献,而不是分配主观、有偏见的整体评分。关键是,RubricsTree采用一个上下文感知的自适应路由机制,带有软触发条件;只要量规与用户的画像或查询上下文语义相关,它就会动态评估特定的量规。通过综合医生标注的严谨性和自动机器评估的可扩展性,RubricsTree产生了一个异常稳定的信号,其中对于不同运行中的每个评估项,与专家的组内相关系数(ICC)很高且方差很低。最终,该框架为个人健康AI的持续、安全优化提供了所需的可扩展基础设施。
### 2.1 人在回路的分类策展与演进
为了将开放式个人健康响应的评估付诸实践,RubricsTree明确地将经验丰富的临床医生过去的临床经验和经过验证的医学文献知识外化到结构化层次结构中。这个形式化的知识库,记为K_clinical,与动态流入的用户查询Q持续综合,以构建和完善评估分类的不同层次。RubricsTree被构建为一个有向无环图(DAG)(digitale2022tutorial),在策展迭代t时正式定义为T^(t) = (V^(t), E^(t))。顶点集V^(t)被划分为K个离散的层级分层:V^(t) = ⋃_{k=1}^K V_k^(t)。宏观能力(V_1)和中间子领域直接锚定于K_clinical,确保与医学共识的基本对齐。终端集V_K = L^(t)代表原子化叶节点,其中每个叶节点l_i ∈ L^(t)作为二元验证函数f_i(c, r) ∈ {0, 1},针对给定的用户上下文c和智能体响应r。
专家策展流水线被公式化为一个迭代、演进式的优化过程。在从T^(t) → T^(t+1)的转换中,获得委员会认证的专家根据真实世界的查询上下文和分布q ∈ Q评估当前的叶节点集L^(t)。令E(q, L^(t))表示残留的临床模糊性,定义为q所需的、无法被现有规则集确定性验证的医学标准和用户上下文的比例。树的结构扩展由最小化此模糊性驱动,条件性地基于真实的医学知识库,并受复杂度惩罚项‖ΔL‖约束以防止过度分割:
L^(t+1) = L^(t) ∪ arg min_{ΔL ⊂ K_clinical} ( ∑_{q∈Q} E(q, L^(t) ∪ ΔL) + ‖ΔL‖ )相似文章
RubricEM:基于量规引导策略分解,超越可验证奖励的元强化学习
本文介绍了 RubricEM,这是一个强化学习框架,它利用量规引导的策略分解和基于反思的元策略进化,为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈,在长篇研究基准测试中表现出强劲的性能。
C2:基于二元偏好的可扩展评分增强奖励建模
C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。
超越评分准则:面向奖励建模的探索引导评估技能
Eval-Skill 是一种探索引导方法,可合成为奖励建模的可复用评估技能,在 RewardBench 2 上相比现有骨干模型取得了显著提升。
RUBAS:基于评分标准的强化学习智能体安全框架
RUBAS 是一个面向智能体安全的评分标准强化学习框架,将 LLM 智能体行为分解为四个维度——工具使用安全性、参数安全性、响应安全性和有用性——在完整轨迹上提供细粒度奖励。实验表明,RUBAS 在标准对齐基线基础上提升了安全性,同时减少了工具相关的幻觉现象,并保持了具有竞争力的实用性。
ARBOR:通过可复用评分缓存为搜索代理提供在线过程奖励
ARBOR 引入了一种可复用的评分缓存,为基于LLM的搜索代理提供在线过程奖励,在仅依赖结果奖励不足时提升训练效率。它在多跳问答基准测试中优于 GRPO 和 DAPO,将多达42%的零梯度训练组转化为信息丰富的训练组。