COTCAgent：基于概率链式思维完成的预防性咨询

arXiv cs.CL 2026/05/15 04:00 论文

medical ehr chain-of-thought reasoning healthcare large-language-models agent

摘要

COTCAgent是一个用于纵向电子健康记录的分层推理框架，采用概率链式思维完成方法，在自建数据集上达到90.47%的Top-1准确率，超越了现有的医疗代理。

arXiv:2605.15016v1 公告类型：新摘要：随着大语言模型赋能医疗健康，智能临床决策支持迅速发展。纵向电子健康记录为准确的临床诊断和分析提供了 essential 的时间证据。然而，当前大语言模型在纵向电子健康记录推理中存在关键缺陷。首先，缺乏细粒度的统计推理，当定量证据以文本方式隐含时，模型常常幻觉临床趋势和指标，从而偏倚诊断推理。其次，纵向电子健康记录中的非均匀时间序列和稀缺标签阻碍了模型捕捉长期时间依赖关系，限制了可靠的临床推理。为解决上述局限性，本文提出了概率链式思维完成代理（COTCAgent），一种用于纵向电子健康记录的分层推理框架。它由三个核心模块组成。时间-统计适配器（TSA）将分析计划转换为可执行代码，以标准化趋势输出。链式思维完成（COTC）层利用症状-趋势-疾病知识库并采用加权评分评估疾病风险，而有界完成模块通过标准化查询和迭代评分约束获取结构化证据，确保严谨推理。通过解耦统计计算、特征匹配和语言生成，该框架消除了对复杂多模态输入的依赖，并以较低的计算开销实现高效的纵向记录分析。实验结果表明，基于百川M2驱动的COTCAgent在自建数据集上达到90.47%的Top-1准确率，在HealthBench上达到70.41%，超越了现有的医疗代理和主流大语言模型。代码可在 https://github.com/FrankDengAI/COTCAgent/ 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:24

# COTCAgent：基于概率思维链完成的预防性咨询

来源：https://arxiv.org/html/2605.15016

邓子涵¹ 钟晓珍² 徐传志³

¹ 香港大学计算与数据科学学院
² 电子科技大学深圳高等研究院
³ 悉尼大学计算机科学学院

[email protected], [email protected], [email protected]

###### 摘要

随着大型语言模型赋能医疗健康，智能临床决策支持得到了快速发展。纵向电子健康记录（EHR）为准确的临床诊断和分析提供了关键的时序证据。然而，当前大型语言模型在纵向EHR推理中存在严重缺陷。首先，由于缺乏细粒度的统计推理，当定量证据以文本方式隐含时，它们常常在临床趋势和指标上产生幻觉，从而偏倚诊断推理。其次，纵向EHR中非均匀的时间序列和稀疏的标签阻碍了模型捕捉长程时序依赖关系，限制了可靠的临床推理。为解决上述限制，本文提出了**概率思维链完成智能体（COTCAgent）**，一种用于纵向电子健康记录的层次化推理框架。它包含三个核心模块。时序统计适配器（TSA）将分析计划转换为可执行代码，以标准化地输出趋势。思维链完成（COTC）层利用症状-趋势-疾病知识库，结合加权评分来评估疾病风险，而边界完成模块通过标准化询问和迭代评分约束来获取结构化证据，确保推理的严谨性。通过解耦统计计算、特征匹配和语言生成，该框架消除了对复杂多模态输入的依赖，并以更低的计算开销实现高效的纵向记录分析。实验结果表明，由Baichuan-M2驱动的COTCAgent在自建数据集上达到90.47%的Top-1准确率，在HealthBench上达到70.41%，优于现有的医疗智能体和主流大型语言模型。代码可在 https://github.com/FrankDengAI/COTCAgent/ 获取。

## 1 引言

序贯诊断是临床医学的一个决定性挑战：医生必须在不确定性下融合不规则的实验室检查结果、不完整的病史和不断演化的假设 [36, 34]。语言模型越来越多地用于公共卫生监测、多模态监控、生理信号解读和轮次工作流 [37, 3, 7, 26, 23]。近期的序贯诊断基准强调协调性提问 [23]，而交互式探询可以揭示静态提示省略的上下文，同时在负责任部署时提高用户信任 [21, 29]。开放的问题不仅仅是“更多令牌”，而是模型输出是否仍然与底层时间序列上的可验证计算相关联。

历史上，医疗LLM是在模板化问诊或选择题上进行评估的，这些很少反映真实病历审查 [28, 20, 6]。长上下文进展改变了上下文能容纳的内容 [17]，但它们本身并不保证忠实的数值推理。工具增强和多智能体架构通过将算术、检索和编排委托给外部模块部分解决了这一问题 [31, 19, 24, 1, 18]。即便如此，纵向智能体仍然存在幻觉趋势陈述和难以事后审计的理由的风险 [7]。我们问：如何在保持从原始序列到谓词、能量以及任何后续问题的可检查轨迹的同时，获得排序的鉴别诊断假设？

在本文中，我们提出**概率思维链完成智能体（COTCAgent）**（第3节，算法1），通过三个耦合层来回答这个问题。**时序统计适配器（TSA）**将自然语言请求映射为紧凑的统计计划和可执行代码，输出类型化的趋势谓词（斜率、变化点、残差），而不是纯文本的数值。**COTC**将症状和谓词与症状-趋势-疾病知识库进行匹配，形成IDF加权的吉布斯能量，并通过softmax归一化为透明的排序替代指标——当缺乏总体先验时，这与完全校准的概率图模型不同 [13]。**完成**模块枚举高优先级知识缺口，生成简洁的澄清问题，将用户回复解析回离散证据，并使用相同的能量重新评分，直到质量、熵或轮次上限被触发。我们故意牺牲了一些对话通用性，以换取跨代码路径、知识库行和对话轮次的可追溯性。

我们的主要贡献可以总结为：
1. **系统集成**：一个可追溯的流水线，结合了可执行的趋势统计（TSA）、结构化的知识库评分（COTC）和边界多轮完成，用于纵向咨询（算法1）。
2. **应用推理机制**：具有双阈值（TT, θ）的IDF加权吉布斯能量、softmax排序和熵引导的缺口优先级（公式7），强调可解释性而非生成式路径枚举。
3. **实证表征**：控制消融实验、知识库敏感性分析以及共享解码下的多骨干基准测试（TimeCAP/Google/DirPred/KARE、前沿阅读器、o4-mini、Qwen3-Next-80B-A3B），并按轮次进行准确性归因（表4和附录H）。

## 2 相关工作

医疗LLM文献从狭窄结构化的SOAP风格提示 [28] 发展到动态时序建模，以更好地反映非结构化的纵向病历数据 [6]。长上下文位置编码、令牌压缩技巧和次二次序列模型 [17] 提供了表征框架。同时期的纵向EHR研究——特别是 [34] ——量化了上下文长度如何与临床显著特征（重复携带前向诊断、不规则的间隔事件、生命周期上增加的标签难度）相互作用。将表征能力转化为床边实用性仍然需要工具。面向检索的智能体基准 [31] 强调知识库介导的计划循环。工具增强的数学智能体 [19] 强化了数值推理。课程式工具课程 [1] 进一步缓解了脆弱的提示。通信式多智能体架构 [24] 扩大了编排原语，大规模API掌握训练 [18] 扩展了解码时可用的操作面。合作序贯诊断 [23] 在这些层次之上具体化了多轮医疗互动。

在忠实的数值计算、幻觉遏制、迁移下的个性化以及连接原始序列到对话更新的可审计理由方面，仍存在持久差距 [7]——这激励了我们显式分层的架构。符号结构提供了一种补充性补救措施。综述 [35] 统一了用于生物医学知识图谱路径的神经符号混合体。参数高效的桥梁如BioBRIDGE [32] 将基础模型与策划图谱连接起来。约束感知解析器如NSSC [9] 在噪声下收紧实体链接。TrustKG风格模板 [30] 突出面向临床医生的集成。神经符号推理的更广泛分类和局限性由 [5] 综合。奖励引导的知识图谱探索也正在兴起 [12]，强调即使中间路径判断看起来很强，脆弱的监督也会损害迁移——这支持了在透明谓词之上使用确定性评分层的方法，正如本文所做的那样。

当存在先验时，概率图模型为症状依赖关系提供了原则性语义 [13]。生物医学知识图谱-语言模型混合体的综述 [35] 记录了符号结构如何连接到LM。社区检索预测器展示了用于排序的操作性图扩展 [10]。COTCAgent 针对缺乏校准先验但纵向趋势叙述丰富的情境：轻量级能量分数引导假设排序，缺失证据被枚举为显式的知识库缺口，用户简短的回答填充这些缺口，然后进行softmax重归一化，而不是在整个本体上进行穷举路径搜索。

## 3 COTCAgent

### 3.1 结构概览

COTCAgent 是一个纵向咨询架构，其范围限定为基于趋势的疾病风险预测和鉴别诊断，给定纵向实验室检查、生命体征和症状。它不处理用药安全、预后估计或预防性护理安排。TSA模块将不规则的EHR序列转换为简短的趋势叙述；COTC模块将这些线索与覆盖9,948种疾病（主要是内科学疾病，包括心血管、呼吸、代谢、感染和神经系统疾病）的症状-趋势-疾病知识库进行匹配。当排序仍不明确时，系统会询问一个聚焦的澄清问题并重新评分——它不是自由形式的聊天机器人。图1描述了流程。

**架构不变量。**我们故意隔离了*三个*随机性表面：(i) **可执行统计**在显式似然下处理原始序列(t, y_t)，因此斜率和断点声明是回归结果，而不是自由文本猜测；(ii) **离散匹配**仅使用经过令牌化的谓词（严重→严重趋势命题，来自TSA输出的锚定窗口）；(iii) **自然语言**仅限于转述预先指定的缺口并将简短答案解析回这些谓词。这种分离使得失败可读——当M抛出异常时，下游COTC层会收到显式的不确定性标志，而不是幻觉数值声明；当知识库缺失时，算法1通过低覆盖率分支退出，而不是编造边。

图1：COTCAgent的整体架构：TSA从纵向信号生成趋势谓词；COTC对疾病进行评分并驱动针对性完成。

### 3.2 TSA模块

TSA块解析临床问题，构建一个小型分析计划，并为相关估计器生成代码。具体来说，从自然语言到可执行分析的转换遵循结构化分解：
M: Q → Φ → Λ → C (1)
其中Q是原始查询，Φ表示解析后的语义结构以捕捉临床意图，Λ表示选定的正式统计模型，C构成生成的可执行脚本。这种映射是依赖于查询的，而非通用。对于与趋势相关的请求，该模块通常实例化混合效应模型以捕捉群体水平模式，同时考虑个体变异：
y_ij = β_0 + β_1 t_ij + u_i + ε_ij, u_i ∼ N(0, σ_u²), ε_ij ∼ N(0, σ_ε²) (2)
其中y_ij表示患者i在时间t_ij的第j次生物标志物测量值，β_1捕捉群体水平趋势斜率，u_i建模个体随机效应。同时，关于突变点的查询会转向贝叶斯变化点检测：
P(τ|y) ∝ P(y|τ)P(τ) = [∏_{t=1}^τ f_1(y_t)][∏_{t=τ+1}^T f_2(y_t)]P(τ), τ∈{1,...,T-1} (3)
其中τ表示候选变化点索引，(f_1, f_2)表示变化前后的似然模型，从而实现对临床轨迹中时间不连续性的定量评估。

实验室检查结果对齐到共同的时间线；缺失值使用K=5的Rubin式堆叠后再拟合。当诊断需要降维时，含多个分析物的面板通过Z = W^T Y进行投影；可选的GP头报告后验均值 f̄_* = k_*^T (K + σ_n² I)⁻¹ y（附录A）。斜率、残差、异常标志和队列对比被总结为与公式5兼容的简短短语（图1）。异常检测使用针对知识库中年龄/性别匹配队列统计数据的群体水平z评分（|z|>2.5阈值），而不是个性化基线。附录A中的其他估计器遵循相同的接口。

映射M*不会*为每个查询实例化附录A中的每个模型。相反，一个轻量级路由器（基于解析意图Φ的规则，加上带有JSON模式后备的LLM规划器）选择一个*小*子集的标准化工具——例如，混合效应趋势检验用于“稳定斜率”查询，结构化变化启发式用于“突然恶化”，或数据稀疏时的鲁棒平滑器。失败的拟合会自动降级为更简单的诊断，并在TSA叙述中标记不确定性，因此COTC永远不会收到过度自信的趋势声明。完整的路由伪代码和失败模式记录在附录E中。

**类型化摘要作为契约。**每个TSA产物是一个元组（span, estimand, value, qual），其中estimand来自一个有限的模式（斜率、变化点后验质量、平滑趋势残差、队列z分数）。降级

COTCAgent：基于概率链式思维完成的预防性咨询

相似文章

工具即连续流：用于演进式智能体推理

通过前缀一致性实现可靠的思维链

带有自回归思维链推理的在线学习理论

置信度感知对齐让推理型大语言模型更加可靠

一种基于观测上下文压缩的高效终端智能体自我演化框架

提交意见反馈