ClinSeekAgent:自动化多模态证据寻求以实现智能体临床推理
摘要
ClinSeekAgent是一个自动化智能体框架,使大语言模型能够主动从原始数据源获取和综合多模态临床证据,提高纯文本和多模态任务中的决策准确性。它引入了ClinSeek-Bench基准和一个蒸馏模型ClinSeek-35B-A3B,该模型在智能体临床推理上取得了强劲性能。
查看缓存全文
缓存时间: 2026/05/22 06:23
论文页面 - ClinSeekAgent: 自动化多模态证据寻求,赋能智能体临床推理
来源:https://huggingface.co/papers/2605.20176
摘要
ClinSeekAgent是一个自动化智能体框架,使大型语言模型能够主动从原始数据源获取和综合多模态临床证据,从而提升纯文本和多模态任务的决策准确性。
大型语言模型 (https://huggingface.co/papers?q=Large%20language%20models) (LLMs) 和智能体系统 (https://huggingface.co/papers?q=agentic%20systems) 在临床决策支持 (https://huggingface.co/papers?q=clinical%20decision%20support) 方面已展现出潜力,但现有工作大多假设证据已被整理好并直接交给模型。而现实临床工作流要求智能体主动寻求、迭代规划并综合来自异构来源的多模态证据。本文提出 ClinSeekAgent,一个用于动态多模态证据寻求 (https://huggingface.co/papers?q=multimodal%20evidence%20seeking) 的自动化智能体框架 (https://huggingface.co/papers?q=automated%20agentic%20framework) ,将范式从被动接收证据转变为主动获取证据。仅需给定临床查询和原始数据源访问权限,ClinSeekAgent 便能通过查询医学知识库 (https://huggingface.co/papers?q=medical%20knowledge%20bases)、浏览原始 EHR、调用医学影像工具 (https://huggingface.co/papers?q=medical%20imaging%20tools) 来收集证据;随着新信息出现不断精炼假设;并将收集到的证据整合为基于实践的临床决策 (https://huggingface.co/papers?q=grounded%20clinical%20decisions)。ClinSeekAgent 同时作为前沿 LLMs 的推理时智能体 (https://huggingface.co/papers?q=inference-time%20agent) 和训练时流水线 (https://huggingface.co/papers?q=training-time%20pipeline),用于将高质量智能体轨迹 (https://huggingface.co/papers?q=agent%20trajectories) 蒸馏到紧凑开源模型 (https://huggingface.co/papers?q=compact%20open-source%20models) 中。为验证其推理时有效性,我们构建了 ClinSeek-Bench (https://huggingface.co/papers?q=ClinSeek-Bench),该基准将基于固定预选证据的 Curated Input 推理与基于原始临床数据的自动化证据寻求进行配对。在纯文本 EHR 任务上,ClinSeekAgent 将 Claude Opus 4.6 的整体 F1 从 60.0 提升至 63.2,将 MiniMax M2.5 从 43.1 提升至 47.3,在 9 个评估的宿主模型中,有 7 个在风险预测上取得正向增益。在多模态任务上,ClinSeekAgent 将 Claude Opus 4.6 从 47.5 提升至 62.6(+15.1);所有评估模型在三个与 CXR 相关的任务组中均有提升。我们进一步验证 ClinSeekAgent 作为训练流水线的能力,通过将智能体证据寻求轨迹蒸馏到 ClinSeek-35B-A3B 中,该模型在现有 AgentEHR-Bench (https://huggingface.co/papers?q=AgentEHR-Bench) 上达到 34.0 的平均 F1,相比其 Qwen3.5-35B-A3B 基准提升了 +11.9 分,并接近 Claude Opus 4.6 的水平。
查看 arXiv 页面 (https://arxiv.org/abs/2605.20176) | 查看 PDF (https://arxiv.org/pdf/2605.20176) | 项目页面 (https://ucsc-vlaa.github.io/ClinSeekAgent/) | GitHub 仓库 (https://github.com/UCSC-VLAA/ClinSeekAgent) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20176)
在你的智能体中获取这篇论文:
hf papers read 2605.20176
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本篇论文的模型 (1)
UCSC-VLAA/ClinSeek-35B-A3B 文本生成 • 35B • 更新于1天前 • 44 (https://huggingface.co/UCSC-VLAA/ClinSeek-35B-A3B)
引用本篇论文的数据集 (1)
UCSC-VLAA/ClinSeek-Bench 查看器 • 更新于1天前 • 2.79k • 26 (https://huggingface.co/datasets/UCSC-VLAA/ClinSeek-Bench)
引用本篇论文的Space (0)
没有Space链接此论文
在Space的README.md中引用 arxiv.org/abs/2605.20176 以从此页面链接。
包含此论文的收藏集 (0)
没有包含此论文的收藏集
将这篇论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
gemma-4-12b-it vs Qwen3.5-9B 在共同基准测试中的对比:Qwen 在 5/8 项基准测试中击败 gemma,虽体积更小但总体胜出
Qwen3.5-9B 在 8 项基准测试中的 5 项中优于 gemma-4-12b-it,尽管模型体积更小。gemma 仅在编程能力上略胜一筹。
谷歌新推出的Gemma 4 12B模型旨在任何配备16GB RAM的笔记本电脑上运行
谷歌发布Gemma 4 12B,这是一款紧凑型AI模型,专为仅需16GB RAM的本地笔记本使用而优化,具备多令牌预测以及针对文本、音频和图像的简化多模态能力。
@mtschannen:过去几年,我的研究重点是跨模态统一模型与训练范式。今天我很激动……
谷歌DeepMind研究员宣布发布Gemma 4 12B,一种无编码器的密集模型,可处理文本、图像和音频输入,延续了跨模态统一模型的研究工作。
我构建了一个将Python重写为面向模型表示的编译器
Vulpine是一个编译器,它将人类可读的Python代码转换为针对LLM优化的压缩宏表示,平均减少13.8%的token数,同时支持精确的结构重建。
@KanikaBK: Google刚刚投下了一颗AI重磅炸弹!一场十亿美元的游戏开始了。Gemma 4 12B在你的笔记本电脑上运行。16GB内存,那就是……
Google发布了Gemma 4 12B,这是一个采用Apache 2.0许可证的开源多模态AI模型,可在拥有16GB内存的笔记本电脑上本地运行,面向企业边缘部署。