medical-llm

#medical-llm

HiMed：激励医学大语言模型中的印地语推理

arXiv cs.CL ↗ · 2026-05-26 缓存

介绍了HiMed，一个印地语推理医学语料库和基准套件，以及HiMed-8B，一个采用衰减脚手架奖励的印地语形式医学推理大语言模型，展示了印地语医学推理能力的提升和英印准确率差距的缩小。

0 人收藏 0 人点赞

#medical-llm

arXiv cs.CL ↗ · 2026-05-22 缓存

介绍 OGCaReBench，这是一个自由形式的检索基准，用于评估 LLM 在需要超越标准指南推理的临床问题上的表现。实验表明，即使是最好的模型也仅能达到 56% 的准确率，但检索增强将性能提升至 82%。

0 人收藏 0 人点赞

#medical-llm

arXiv cs.CL ↗ · 2026-05-21 缓存

本文对医疗大语言模型（包括定制MedGPT和开源模型）进行了大规模评估，发现其中25-30%的模型事实准确性较低，33.6-54.3%的模型违反操作阈值，揭示了系统性的安全风险。

0 人收藏 0 人点赞

#medical-llm

Reddit r/ArtificialInteligence ↗ · 2026-05-15

本文批评了Mark Kaplan通过其平台healtthruth.ai微调医疗大语言模型的方法，指出了在医疗AI中覆盖基础训练的陷阱。

0 人收藏 0 人点赞