ClinSeekAgent：自动化多模态证据寻求以实现智能体临床推理

Hugging Face Daily Papers 2026/05/19 00:00 论文

clinical-reasoning multimodal evidence-seeking agentic-framework llm medical-ai

摘要

ClinSeekAgent是一个自动化智能体框架，使大语言模型能够主动从原始数据源获取和综合多模态临床证据，提高纯文本和多模态任务中的决策准确性。它引入了ClinSeek-Bench基准和一个蒸馏模型ClinSeek-35B-A3B，该模型在智能体临床推理上取得了强劲性能。

大语言模型（LLMs）和智能体系统在临床决策支持方面已展现出潜力，但现有工作大多假设证据已经过整理并直接提供给模型。实际临床工作流则要求智能体主动寻求、迭代规划并从异构数据源综合多模态证据。本文介绍ClinSeekAgent，一种用于动态多模态证据寻求的自动化智能体框架，它将范式从被动证据消费转变为主动证据获取。仅凭临床查询和对原始数据源的访问，ClinSeekAgent通过查询医学知识库、浏览原始EHR数据、调用医学影像工具来收集证据；随着新信息出现不断修正假设；并将收集到的证据整合为基于临床的决策。ClinSeekAgent既可作为前沿LLM的推理时智能体，也可作为训练时管线，将高质量的智能体轨迹蒸馏到紧凑的开源模型中。为验证其推理时有效性，我们构建了ClinSeek-Bench，将来自固定预选证据的Curated Input推理与基于原始临床数据的自动化证据寻求进行配对。在纯文本EHR任务中，ClinSeekAgent使Claude Opus 4.6的整体F1值从60.0提升至63.2，使MiniMax M2.5从43.1提升至47.3，并且在9个被评估的主模型中有7个获得了正向风险预测增益。在多模态任务中，ClinSeekAgent使Claude Opus 4.6从47.5提升至62.6（+15.1）；所有被评估模型在三个CXR相关任务组中均有所提升。我们进一步将ClinSeekAgent作为训练管线进行验证，将智能体证据寻求轨迹蒸馏到ClinSeek-35B-A3B中，该模型在现有AgentEHR-Bench上取得了34.0的平均F1值，相比其Qwen3.5-35B-A3B基线提升了+11.9分，并接近Claude Opus 4.6的表现。

查看原文

查看缓存全文

缓存时间: 2026/05/22 06:23

论文页面 - ClinSeekAgent: 自动化多模态证据寻求，赋能智能体临床推理

来源：https://huggingface.co/papers/2605.20176

摘要

ClinSeekAgent是一个自动化智能体框架，使大型语言模型能够主动从原始数据源获取和综合多模态临床证据，从而提升纯文本和多模态任务的决策准确性。

大型语言模型 (https://huggingface.co/papers?q=Large%20language%20models) (LLMs) 和智能体系统 (https://huggingface.co/papers?q=agentic%20systems) 在临床决策支持 (https://huggingface.co/papers?q=clinical%20decision%20support) 方面已展现出潜力，但现有工作大多假设证据已被整理好并直接交给模型。而现实临床工作流要求智能体主动寻求、迭代规划并综合来自异构来源的多模态证据。本文提出 ClinSeekAgent，一个用于动态多模态证据寻求 (https://huggingface.co/papers?q=multimodal%20evidence%20seeking) 的自动化智能体框架 (https://huggingface.co/papers?q=automated%20agentic%20framework) ，将范式从被动接收证据转变为主动获取证据。仅需给定临床查询和原始数据源访问权限，ClinSeekAgent 便能通过查询医学知识库 (https://huggingface.co/papers?q=medical%20knowledge%20bases)、浏览原始 EHR、调用医学影像工具 (https://huggingface.co/papers?q=medical%20imaging%20tools) 来收集证据；随着新信息出现不断精炼假设；并将收集到的证据整合为基于实践的临床决策 (https://huggingface.co/papers?q=grounded%20clinical%20decisions)。ClinSeekAgent 同时作为前沿 LLMs 的推理时智能体 (https://huggingface.co/papers?q=inference-time%20agent) 和训练时流水线 (https://huggingface.co/papers?q=training-time%20pipeline)，用于将高质量智能体轨迹 (https://huggingface.co/papers?q=agent%20trajectories) 蒸馏到紧凑开源模型 (https://huggingface.co/papers?q=compact%20open-source%20models) 中。为验证其推理时有效性，我们构建了 ClinSeek-Bench (https://huggingface.co/papers?q=ClinSeek-Bench)，该基准将基于固定预选证据的 Curated Input 推理与基于原始临床数据的自动化证据寻求进行配对。在纯文本 EHR 任务上，ClinSeekAgent 将 Claude Opus 4.6 的整体 F1 从 60.0 提升至 63.2，将 MiniMax M2.5 从 43.1 提升至 47.3，在 9 个评估的宿主模型中，有 7 个在风险预测上取得正向增益。在多模态任务上，ClinSeekAgent 将 Claude Opus 4.6 从 47.5 提升至 62.6（+15.1）；所有评估模型在三个与 CXR 相关的任务组中均有提升。我们进一步验证 ClinSeekAgent 作为训练流水线的能力，通过将智能体证据寻求轨迹蒸馏到 ClinSeek-35B-A3B 中，该模型在现有 AgentEHR-Bench (https://huggingface.co/papers?q=AgentEHR-Bench) 上达到 34.0 的平均 F1，相比其 Qwen3.5-35B-A3B 基准提升了 +11.9 分，并接近 Claude Opus 4.6 的水平。

查看 arXiv 页面 (https://arxiv.org/abs/2605.20176) | 查看 PDF (https://arxiv.org/pdf/2605.20176) | 项目页面 (https://ucsc-vlaa.github.io/ClinSeekAgent/) | GitHub 仓库 (https://github.com/UCSC-VLAA/ClinSeekAgent) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20176)

在你的智能体中获取这篇论文：

hf papers read 2605.20176

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本篇论文的模型 (1)

UCSC-VLAA/ClinSeek-35B-A3B 文本生成 • 35B • 更新于1天前 • 44 (https://huggingface.co/UCSC-VLAA/ClinSeek-35B-A3B)

引用本篇论文的数据集 (1)

UCSC-VLAA/ClinSeek-Bench 查看器 • 更新于1天前 • 2.79k • 26 (https://huggingface.co/datasets/UCSC-VLAA/ClinSeek-Bench)

引用本篇论文的Space (0)

没有Space链接此论文

在Space的README.md中引用 arxiv.org/abs/2605.20176 以从此页面链接。

包含此论文的收藏集 (0)

没有包含此论文的收藏集

将这篇论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

ClinSeekAgent：自动化多模态证据寻求以实现智能体临床推理

论文页面 - ClinSeekAgent: 自动化多模态证据寻求，赋能智能体临床推理

摘要

引用本篇论文的模型 (1)

UCSC-VLAA/ClinSeek-35B-A3B 文本生成 • 35B • 更新于1天前 • 44 (https://huggingface.co/UCSC-VLAA/ClinSeek-35B-A3B)

引用本篇论文的数据集 (1)

UCSC-VLAA/ClinSeek-Bench 查看器 • 更新于1天前 • 2.79k • 26 (https://huggingface.co/datasets/UCSC-VLAA/ClinSeek-Bench)

引用本篇论文的Space (0)

包含此论文的收藏集 (0)

相似文章

microsoft/Fara1.5-27B · Hugging Face

亲爱的Michael，LLMs并非依赖专有技术运行，但它们确实依赖大量专有数据，也就是所谓的被盗知识产权

MindControl - 用于在采样过程中通过注入引导推理过程的 llama.cpp 分支

@akshay_pachaar: 如果必须将70B模型适配到单个GPU上，我会学习的LLM量化技术：(收藏此帖) FP16的70B模型……

@DanKornas：测试设备端模型不应意味着在评估前先构建移动应用。Google AI Edge Gallery 是一款...

提交意见反馈