标签
RubricsTree 提出了一种可扩展且与专家对齐的个人健康智能体评估框架,使用超过100个原子布尔规则,在Gemini、GPT和Qwen模型系列的HealthBench上实现了高达66%的相对提升。