标签
本研究探究了经过指令微调的大语言模型(Llama-3.1-8B、Qwen2.5-7B、Mistral-7B、Phi-3-mini)能否可靠地分类失语症语篇转录中的正确信息单元。少样本提示使三个模型获得了具有竞争力的F1分数(0.776–0.817),但性能因严重程度而异,且与人类标注的一致性仍不足以实现完全自主使用。
本文批判了自动语音识别(ASR)评估中使用单一参考真实标准的做法,指出这会导致对失语症患者说话人的认识论不公。文章提出了一种新指标——认识论不公距离(EID),并提倡使用WER-Range(词错率范围)来考虑多样化的转录惯例。