clinical

#clinical

MedRealMM：一个用于中国在线医疗咨询的现实世界多模态基准

arXiv cs.AI ↗ · 2026-07-13 缓存

MedRealMM是一个基于真实医患交互构建的新的多模态基准，用于评估大语言模型在在线医疗咨询中的下一响应生成能力，并配有临床评价标准。

0 人收藏 0 人点赞

#clinical

OpenMed 1.8：Apache-2.0 临床去标识化工具，完全本地运行，现已支持 Android、iOS 和浏览器。400+ 开放议题邀你参与 1.9 版本

Reddit r/LocalLLaMA ↗ · 2026-07-09

OpenMed 1.8 是一款 Apache-2.0 临床去标识化工具包，完全本地运行，新增对 Android、iOS 和浏览器平台的支持，并邀请社区为 1.9 版本贡献力量。

0 人收藏 0 人点赞

#clinical

超越社交媒体的心理健康障碍检测：现有数据集的系统综述

arXiv cs.CL ↗ · 2026-07-07 缓存

对非社交媒体自由文本数据集进行系统综述，用于心理健康障碍检测，识别当前资源中的偏见与空白。

0 人收藏 0 人点赞

#clinical

MedCalc-Pro：使用LLM Agents解决复杂医疗计算

arXiv cs.AI ↗ · 2026-07-07 缓存

本文介绍了MedCalc-Pro，这是一个新的基准测试，用于评估LLMs在复杂医疗计算中的表现，涉及单计算器、多计算器和嵌套计算器设置，以及一个通过多工具选择和结构化验证提升性能的代理框架。

0 人收藏 0 人点赞

#clinical

SamaVaani：印度语言多语言临床ASR的审计与去偏

arXiv cs.CL ↗ · 2026-06-26 缓存

本文对印度语言的精神病学访谈中的多语言临床ASR系统进行了系统性审计，并提出了SamaVaani，一种统一的去偏技术，旨在提升跨人口群体的性能与公平性。

0 人收藏 0 人点赞

#clinical

心理健康对话中的专家级危机检测

arXiv cs.CL ↗ · 2026-06-10 缓存

介绍了CRADLE-Dialogue，一个由临床医生标注的基准数据集，用于心理健康对话中的对话轮次级危机检测，同时包含Alert–Confirm评估协议、合成训练语料库以及一个32B参数模型，该模型在性能上优于现有的开放源代码和专有模型。

0 人收藏 0 人点赞

#clinical

Meddies PII：用于临床文本的开源多语言去标识化模型

Reddit r/LocalLLaMA ↗ · 2026-06-08

Meddies PII 是一个用于临床文本去标识化的开源多语言模型及数据集，旨在移除患者标识符的同时保留临床事实。它利用动态提示生成的合成数据，以处理多样化的真实世界格式。

0 人收藏 0 人点赞

#clinical

MedCUA-Bench：面向临床计算机操作智能体的截图型基准测试

arXiv cs.AI ↗ · 2026-06-03 缓存

MedCUA-Bench是一个新的基准测试，用于评估计算机操作智能体在临床软件任务上的表现，涵盖10个医学领域的18个场景，并包含安全维度。结果显示，当前智能体表现不佳，尤其在真实OpenEMR上，凸显了可靠性方面的显著差距。

0 人收藏 0 人点赞

#clinical

AMNESIA：大规模医学去学习基准套件，结合疾病知情分析

arXiv cs.LG ↗ · 2026-06-01 缓存

AMNESIA 是首个大规模开源医学去学习基准，包含来自 11 种疾病的 8,820 份病历笔记中的 70,560 个问答对，旨在评估 LLM 对事实知识和推理知识的遗忘情况。

0 人收藏 0 人点赞

#clinical

关于时间序列预训练中归纳偏差的作用：以临床时间序列学习通用表征的案例研究

arXiv cs.LG ↗ · 2026-05-27 缓存

本文研究了临床数据时间序列预训练中归纳偏差的作用，提出了PathoFM——一种以编码器为中心的Transformer，在多变量步态窗口上进行了预训练。研究比较了不同的预训练目标，发现以动力学为中心的混合目标在分类和回归任务中实现了最均衡的迁移效果。

0 人收藏 0 人点赞

#clinical

当正确信念崩溃时：临床压力下LLMs的认知韧性

arXiv cs.AI ↗ · 2026-05-26 缓存

本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念，提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性，并在医学基准测试中展示了显著的鲁棒性提升。

0 人收藏 0 人点赞

#clinical

AnchorDiff: 拓扑感知的掩码扩散与基于置信度的重写用于放射学报告生成

arXiv cs.AI ↗ · 2026-05-19 缓存

AnchorDiff提出了一种拓扑感知的掩码扩散框架用于放射学报告生成，整合了基于RadGraph的临床锚点和基于置信度的重写，在MIMIC-CXR和MIMIC-RG4基准测试上取得了最先进的结果。

0 人收藏 0 人点赞

clinical

提交意见反馈