clinical

标签

Cards List
#clinical

MedCUA-Bench:面向临床计算机操作智能体的截图型基准测试

arXiv cs.AI · 18小时前 缓存

MedCUA-Bench是一个新的基准测试,用于评估计算机操作智能体在临床软件任务上的表现,涵盖10个医学领域的18个场景,并包含安全维度。结果显示,当前智能体表现不佳,尤其在真实OpenEMR上,凸显了可靠性方面的显著差距。

0 人收藏 0 人点赞
#clinical

AMNESIA:大规模医学去学习基准套件,结合疾病知情分析

arXiv cs.LG · 2天前 缓存

AMNESIA 是首个大规模开源医学去学习基准,包含来自 11 种疾病的 8,820 份病历笔记中的 70,560 个问答对,旨在评估 LLM 对事实知识和推理知识的遗忘情况。

0 人收藏 0 人点赞
#clinical

关于时间序列预训练中归纳偏差的作用:以临床时间序列学习通用表征的案例研究

arXiv cs.LG · 2026-05-27 缓存

本文研究了临床数据时间序列预训练中归纳偏差的作用,提出了PathoFM——一种以编码器为中心的Transformer,在多变量步态窗口上进行了预训练。研究比较了不同的预训练目标,发现以动力学为中心的混合目标在分类和回归任务中实现了最均衡的迁移效果。

0 人收藏 0 人点赞
#clinical

当正确信念崩溃时:临床压力下LLMs的认知韧性

arXiv cs.AI · 2026-05-26 缓存

本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念,提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性,并在医学基准测试中展示了显著的鲁棒性提升。

0 人收藏 0 人点赞
#clinical

AnchorDiff: 拓扑感知的掩码扩散与基于置信度的重写用于放射学报告生成

arXiv cs.AI · 2026-05-19 缓存

AnchorDiff提出了一种拓扑感知的掩码扩散框架用于放射学报告生成,整合了基于RadGraph的临床锚点和基于置信度的重写,在MIMIC-CXR和MIMIC-RG4基准测试上取得了最先进的结果。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈