标签
本文提出一种使用GRPO的方差感知奖励框架,以改进LLMs在心脏相关医疗问答上的性能,在一个HealthBench子集上实现了显著的准确率和F1分数提升。
研究人员推出了 DoseBench——一个包含 81 个非处方药剂量场景的基准测试,用于评估大语言模型在对乙酰氨基酚和布洛芬使用中面对时间不确定性时的决策能力。结果表明,大语言模型在滚动时间窗口推理方面频繁出现困难,且可能给出看似自信但缺乏医学依据的回答。
一个教程和项目,演示在AMD MI300X上使用ROCm对Qwen3-1.7B进行LoRA微调,用于临床问答,为医疗AI开发提供无需CUDA的替代方案。