ClinSeekAgent:自动化多模态证据寻求以实现智能体临床推理

Hugging Face Daily Papers 论文

摘要

ClinSeekAgent是一个自动化智能体框架,使大语言模型能够主动从原始数据源获取和综合多模态临床证据,提高纯文本和多模态任务中的决策准确性。它引入了ClinSeek-Bench基准和一个蒸馏模型ClinSeek-35B-A3B,该模型在智能体临床推理上取得了强劲性能。

大语言模型(LLMs)和智能体系统在临床决策支持方面已展现出潜力,但现有工作大多假设证据已经过整理并直接提供给模型。实际临床工作流则要求智能体主动寻求、迭代规划并从异构数据源综合多模态证据。本文介绍ClinSeekAgent,一种用于动态多模态证据寻求的自动化智能体框架,它将范式从被动证据消费转变为主动证据获取。仅凭临床查询和对原始数据源的访问,ClinSeekAgent通过查询医学知识库、浏览原始EHR数据、调用医学影像工具来收集证据;随着新信息出现不断修正假设;并将收集到的证据整合为基于临床的决策。ClinSeekAgent既可作为前沿LLM的推理时智能体,也可作为训练时管线,将高质量的智能体轨迹蒸馏到紧凑的开源模型中。为验证其推理时有效性,我们构建了ClinSeek-Bench,将来自固定预选证据的Curated Input推理与基于原始临床数据的自动化证据寻求进行配对。在纯文本EHR任务中,ClinSeekAgent使Claude Opus 4.6的整体F1值从60.0提升至63.2,使MiniMax M2.5从43.1提升至47.3,并且在9个被评估的主模型中有7个获得了正向风险预测增益。在多模态任务中,ClinSeekAgent使Claude Opus 4.6从47.5提升至62.6(+15.1);所有被评估模型在三个CXR相关任务组中均有所提升。我们进一步将ClinSeekAgent作为训练管线进行验证,将智能体证据寻求轨迹蒸馏到ClinSeek-35B-A3B中,该模型在现有AgentEHR-Bench上取得了34.0的平均F1值,相比其Qwen3.5-35B-A3B基线提升了+11.9分,并接近Claude Opus 4.6的表现。
查看原文
查看缓存全文

缓存时间: 2026/05/22 06:23

论文页面 - ClinSeekAgent: 自动化多模态证据寻求,赋能智能体临床推理

来源:https://huggingface.co/papers/2605.20176

摘要

ClinSeekAgent是一个自动化智能体框架,使大型语言模型能够主动从原始数据源获取和综合多模态临床证据,从而提升纯文本和多模态任务的决策准确性。

大型语言模型 (https://huggingface.co/papers?q=Large%20language%20models) (LLMs) 和智能体系统 (https://huggingface.co/papers?q=agentic%20systems) 在临床决策支持 (https://huggingface.co/papers?q=clinical%20decision%20support) 方面已展现出潜力,但现有工作大多假设证据已被整理好并直接交给模型。而现实临床工作流要求智能体主动寻求、迭代规划并综合来自异构来源的多模态证据。本文提出 ClinSeekAgent,一个用于动态多模态证据寻求 (https://huggingface.co/papers?q=multimodal%20evidence%20seeking) 的自动化智能体框架 (https://huggingface.co/papers?q=automated%20agentic%20framework) ,将范式从被动接收证据转变为主动获取证据。仅需给定临床查询和原始数据源访问权限,ClinSeekAgent 便能通过查询医学知识库 (https://huggingface.co/papers?q=medical%20knowledge%20bases)、浏览原始 EHR、调用医学影像工具 (https://huggingface.co/papers?q=medical%20imaging%20tools) 来收集证据;随着新信息出现不断精炼假设;并将收集到的证据整合为基于实践的临床决策 (https://huggingface.co/papers?q=grounded%20clinical%20decisions)。ClinSeekAgent 同时作为前沿 LLMs 的推理时智能体 (https://huggingface.co/papers?q=inference-time%20agent) 和训练时流水线 (https://huggingface.co/papers?q=training-time%20pipeline),用于将高质量智能体轨迹 (https://huggingface.co/papers?q=agent%20trajectories) 蒸馏到紧凑开源模型 (https://huggingface.co/papers?q=compact%20open-source%20models) 中。为验证其推理时有效性,我们构建了 ClinSeek-Bench (https://huggingface.co/papers?q=ClinSeek-Bench),该基准将基于固定预选证据的 Curated Input 推理与基于原始临床数据的自动化证据寻求进行配对。在纯文本 EHR 任务上,ClinSeekAgent 将 Claude Opus 4.6 的整体 F1 从 60.0 提升至 63.2,将 MiniMax M2.5 从 43.1 提升至 47.3,在 9 个评估的宿主模型中,有 7 个在风险预测上取得正向增益。在多模态任务上,ClinSeekAgent 将 Claude Opus 4.6 从 47.5 提升至 62.6(+15.1);所有评估模型在三个与 CXR 相关的任务组中均有提升。我们进一步验证 ClinSeekAgent 作为训练流水线的能力,通过将智能体证据寻求轨迹蒸馏到 ClinSeek-35B-A3B 中,该模型在现有 AgentEHR-Bench (https://huggingface.co/papers?q=AgentEHR-Bench) 上达到 34.0 的平均 F1,相比其 Qwen3.5-35B-A3B 基准提升了 +11.9 分,并接近 Claude Opus 4.6 的水平。

查看 arXiv 页面 (https://arxiv.org/abs/2605.20176) | 查看 PDF (https://arxiv.org/pdf/2605.20176) | 项目页面 (https://ucsc-vlaa.github.io/ClinSeekAgent/) | GitHub 仓库 (https://github.com/UCSC-VLAA/ClinSeekAgent) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20176)

在你的智能体中获取这篇论文:

hf papers read 2605.20176

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本篇论文的模型 (1)

UCSC-VLAA/ClinSeek-35B-A3B 文本生成 • 35B • 更新于1天前 • 44 (https://huggingface.co/UCSC-VLAA/ClinSeek-35B-A3B)

引用本篇论文的数据集 (1)

UCSC-VLAA/ClinSeek-Bench 查看器 • 更新于1天前 • 2.79k • 26 (https://huggingface.co/datasets/UCSC-VLAA/ClinSeek-Bench)

引用本篇论文的Space (0)

没有Space链接此论文

在Space的README.md中引用 arxiv.org/abs/2605.20176 以从此页面链接。

包含此论文的收藏集 (0)

没有包含此论文的收藏集

将这篇论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章