medical-llm

#medical-llm

可读但不可控：医疗大语言模型幻觉的神经元层面证据

arXiv cs.CL ↗ · 2026-07-02 缓存

本文探讨了医疗大语言模型中的幻觉是否可以在神经元层面被检测和控制。作者发现，虽然幻觉信号在众多神经元中可被检测到（AUROC 0.77-0.86），但通过引导这些相同神经元并不容易纠正它们。

0 人收藏 0 人点赞

#medical-llm

arXiv cs.AI ↗ · 2026-06-30 缓存

本文提出了一种方法，利用冻结的医学大型语言模型（LLM）表示作为共享嵌入空间，从结构化和非结构化电子健康记录数据中预测主要ICD诊断类别，在MIMIC-IV上取得了优于基线方法的准确率，并展示了向MIMIC-III的迁移能力。

0 人收藏 0 人点赞

#medical-llm

Reddit r/MachineLearning ↗ · 2026-06-24

作者注意到，尽管Hugging Face上存在像MedGemma和BioMistral这样的模型，但面向医疗的LLM公开可用的API却出人意料地缺乏，并询问是否有任何可用的选项。

0 人收藏 0 人点赞

#medical-llm

arXiv cs.CL ↗ · 2026-06-18 缓存

介绍了 PhysAssistBench，这是一个用于评估 LLM 在交互式医生-患者-EHR 辅助中性能的基准。实验表明，当前模型在此场景下不可靠，凸显了协调能力的需求。

0 人收藏 0 人点赞

#medical-llm

arXiv cs.AI ↗ · 2026-06-09 缓存

本文介绍了AI-MASLD，一个用于医学大语言模型的压力审计框架，揭示了基准准确率如何掩盖严重的安全故障，并展示了开放权重模型在安全维度上可以媲美或超越专有模型。

0 人收藏 0 人点赞

#medical-llm

arXiv cs.CL ↗ · 2026-05-26 缓存

介绍了HiMed，一个印地语推理医学语料库和基准套件，以及HiMed-8B，一个采用衰减脚手架奖励的印地语形式医学推理大语言模型，展示了印地语医学推理能力的提升和英印准确率差距的缩小。

0 人收藏 0 人点赞

#medical-llm

arXiv cs.CL ↗ · 2026-05-22 缓存

介绍 OGCaReBench，这是一个自由形式的检索基准，用于评估 LLM 在需要超越标准指南推理的临床问题上的表现。实验表明，即使是最好的模型也仅能达到 56% 的准确率，但检索增强将性能提升至 82%。

0 人收藏 0 人点赞

#medical-llm

arXiv cs.CL ↗ · 2026-05-21 缓存

本文对医疗大语言模型（包括定制MedGPT和开源模型）进行了大规模评估，发现其中25-30%的模型事实准确性较低，33.6-54.3%的模型违反操作阈值，揭示了系统性的安全风险。

0 人收藏 0 人点赞

#medical-llm

Reddit r/ArtificialInteligence ↗ · 2026-05-15

本文批评了Mark Kaplan通过其平台healtthruth.ai微调医疗大语言模型的方法，指出了在医疗AI中覆盖基础训练的陷阱。

0 人收藏 0 人点赞