clinical-nlp

#clinical-nlp

大语言模型能否可靠识别失语症语篇中的正确信息单元？

arXiv cs.AI ↗ · 2026-06-16 缓存

本研究探究了经过指令微调的大语言模型（Llama-3.1-8B、Qwen2.5-7B、Mistral-7B、Phi-3-mini）能否可靠地分类失语症语篇转录中的正确信息单元。少样本提示使三个模型获得了具有竞争力的F1分数（0.776–0.817），但性能因严重程度而异，且与人类标注的一致性仍不足以实现完全自主使用。

0 人收藏 0 人点赞

#clinical-nlp

ReportQA: 基于问答的放射学报告评估

arXiv cs.CL ↗ · 2026-06-16 缓存

本文提出了ReportQA，一种基于问答的放射学报告评估框架，利用大语言模型回答临床相关问题，相较于现有指标，与放射科医生判断的一致性更好。

0 人收藏 0 人点赞

#clinical-nlp

ClinicalBERT语言预测中人口统计关联编码的计算审计

arXiv cs.CL ↗ · 2026-06-15 缓存

本文对ClinicalBERT中的表征偏差进行了计算审计，发现人口统计关联是由模型本身放大，而非继承自训练数据。

0 人收藏 0 人点赞

#clinical-nlp

sebis 在 CRF 填充 2026：一种用于医疗 CRF 填充的两阶段本地 LLM 流水线

arXiv cs.CL ↗ · 2026-06-12 缓存

本文介绍了一种完全本地化的两阶段 LLM 流水线，使用 MedGemma-27B 从临床笔记中填充病例报告表，在英文测试轨道上实现了 0.55 的宏观 F1 分数，并在本地开源提交中获得了第二名。

0 人收藏 0 人点赞

#clinical-nlp

EDEN：面向意大利语的临床笔记大规模语料库

arXiv cs.CL ↗ · 2026-06-12 缓存

EDEN是一个来自意大利急诊科的去标识化临床笔记的大规模语料库，其中一部分注有结构化信息提取的手工标注。其目标是支持意大利语医学应用的LLM开发。

0 人收藏 0 人点赞

#clinical-nlp

使用合成理由数据的监督微调损害了现实世界疾病预测

arXiv cs.AI ↗ · 2026-06-10 缓存

本文证明，与仅使用标签的微调相比，在阿尔茨海默病检测中，使用合成理由数据进行监督微调在多种配置和模型家族中始终损害预测性能。尽管理由质量很高，这种退化仍然存在，并归因于叙事合理性与判别优化之间的结构性冲突。

0 人收藏 0 人点赞

#clinical-nlp

LinguIUTics 在 PsyDefDetect 中的方法：面向心理防御机制分类的迭代不平衡感知 Qwen3-8B 微调

arXiv cs.CL ↗ · 2026-06-02 缓存

本文提出了一种迭代不平衡感知微调方法，使用 Qwen3-8B 和 QLoRA 进行心理防御机制分类，在 PsyDefDetect 2026 共享任务中取得了 0.3917 的宏 F1 分数，在 21 支队伍中排名第 4。

0 人收藏 0 人点赞

#clinical-nlp

SafeRx-Agent：一个基于知识的多智能体框架，用于安全且可解释的药物推荐

arXiv cs.CL ↗ · 2026-05-29 缓存

介绍了SafeRx-Agent，一种基于知识的多智能体框架，用于安全且可解释的药物推荐，可生成细粒度的ATC代码预测，同时控制药物相互作用和禁忌症，在MIMIC-III和MIMIC-IV数据集上进行了评估。

0 人收藏 0 人点赞

#clinical-nlp

向量并非中性：从导出的大语言模型表征中推断敏感信息——以摘要生成为例

arXiv cs.CL ↗ · 2026-05-27 缓存

本文探讨了在临床摘要生成中从导出的大语言模型表征推断敏感信息的风险，表明减少一个向量工件的泄露并不能保证其他工件的隐私。提出了SurfaceLoRA，一种微调方法，可在保持效用的同时减少从目标向量中恢复种族信息的能力。

0 人收藏 0 人点赞

#clinical-nlp

EPPC-OASIS：针对安全消息中电子患者-提供者通信挖掘的本体感知适应与结构化推理优化

arXiv cs.AI ↗ · 2026-05-26 缓存

本文介绍了EPPC-OASIS，一种本体感知适应方法，用于从安全的患者-提供者消息中提取结构化通信行为。该方法在微调过程中结合了Wasserstein对齐与推理优化步骤，在一个去标识化语料库上相比基线取得了适度改进。

0 人收藏 0 人点赞

#clinical-nlp

MedicalBench：评估大型语言模型以改进医学概念提取

arXiv cs.CL ↗ · 2026-05-21 缓存

MedicalBench是一个新的基准测试，用于评估大型语言模型从电子健康记录中提取医学概念的能力，重点关注隐含推理和证据支撑。它包含823个专家标注的示例，并显示当前模型表现一般，突显了提取隐含表述的医学概念的难度。

0 人收藏 0 人点赞

#clinical-nlp

面向在线患者咨询的可操作分诊分类的小样本大语言模型

arXiv cs.CL ↗ · 2026-05-18 缓存

本文探讨了使用小样本提示的大语言模型对在线患者咨询进行可操作分诊分类，分为自我护理、预约就诊、紧急临床审查或急诊转诊。最佳模型（Claude Haiku 4.5，12次小样本提示）的macro-F1达到0.475，超过了有监督基线，但作者得出结论：LLMs可以支持分诊优先级排序和选择性人工审核，但不能自主部署。

0 人收藏 0 人点赞

#clinical-nlp