大语言模型能否可靠识别失语症语篇中的正确信息单元？

arXiv cs.AI 2026/06/16 04:00 论文

llm aphasia discourse-analysis few-shot natural-language-processing clinical-nlp evaluation

摘要

本研究探究了经过指令微调的大语言模型（Llama-3.1-8B、Qwen2.5-7B、Mistral-7B、Phi-3-mini）能否可靠地分类失语症语篇转录中的正确信息单元。少样本提示使三个模型获得了具有竞争力的F1分数（0.776–0.817），但性能因严重程度而异，且与人类标注的一致性仍不足以实现完全自主使用。

arXiv:2606.15696v1 公告类型：新摘要：正确信息单元（CIU）是失语症语篇评估的核心，因为它们量化了交际信息量，而不仅仅是语言形式。然而，CIU评分耗时且需要经过培训的评分员。本研究检验了经过指令微调的大语言模型（LLM）能否从失语症语篇转录中可靠地执行词元级别的CIU分类。使用Cat Rescue刺激物诱发的十六个图片描述转录，根据Nicholas和Brookshire（1993）的方法对CIU状态进行了标注。样本涵盖四个严重程度层级：对照组、轻度、中度和重度失语症。四个公开可用的指令微调LLM在零样本和两种少样本提示条件下，跨越五个分层随机种子进行了基准测试。性能通过准确率、精确率、召回率、F1分数和Cohen's kappa与人类共识标签进行对比评估。零样本提示对所有模型均不足。相比之下，少样本提示带来了显著提升，并且三个可行模型表现出有竞争力的性能。Llama-3.1-8B、Qwen2.5-7B和Mistral-7B的平均少样本F1分数范围从0.776到0.817，固定全局示例选择和按块局部示例选择之间没有显著差异。Phi-3-mini不稳定，未产生可靠性能。可行模型显示出高召回率但较低的精确率，表明系统性地将词元过度分类为CIU。性能也因语篇严重程度而异，在更严重的失语症中结果最弱。少样本LLM提示可以在不进行基于梯度的任务训练的情况下支持自动化CIU识别，但与人工标注的一致性仍不足以实现完全自主使用。这些发现支持基于LLM的CIU评分作为语篇评估系统中一个有前景的人机协同组件。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:48

# 大语言模型能否可靠识别失语症话语中的正确信息单元？
来源：https://arxiv.org/abs/2606.15696
查看PDF (https://arxiv.org/pdf/2606.15696)

> 摘要：正确信息单元（CIU）是失语症话语评估的核心指标，因其量化的是交际信息量而非单纯的语言形式。然而，CIU评分耗时耗力，且需要经过培训的评分员。本研究考察了经过指令微调的大语言模型（LLM）能否根据失语症话语转录文本，在词元级别可靠地进行CIU分类。研究采用Cat Rescue图片描述刺激法，获取了16份图片描述转录文本，并根据Nicholas与Brookshire（1993）的标准对CIU状态进行了标注。样本涵盖四个严重程度层级：对照组、轻度、中度和重度失语症。研究对四个公开可用的指令微调大语言模型进行了基准测试，分别在零样本和两种少量样本提示条件下，跨越五个分层随机种子进行测试。以人工标注共识为基准，使用准确率、精确率、召回率、F1分数和Cohen's kappa评估性能。结果表明，零样本提示对各个模型均不充分。相比之下，少量样本提示带来了显著提升，并为三个可行模型产生了具有竞争力的表现。Llama-3.1-8B、Qwen2.5-7B和Mistral-7B的平均少量样本F1分数在0.776至0.817之间，且固定全局示例选择与每个语块局部示例选择之间无显著差异。Phi-3-mini表现不稳定，无法产生可靠结果。可行模型表现出高召回率但较低的精确率，表明存在将词元系统性地过度分类为CIU的趋势。性能还随话语严重程度而变化，在重度失语症中结果最弱。少量样本LLM提示可以支持自动CIU识别，无需基于梯度的任务训练，但与人工标注的一致性仍不足以用于全自动场景。这些发现支持将基于LLM的CIU评分作为话语评估系统中一个有前途的人机协同组件。

## 提交历史

来自：Jason Pittman [查看邮箱 (https://arxiv.org/show-email/a226f98c/2606.15696)] **\[v1\]**2026年4月10日星期五 01:53:35 UTC (686 KB)

大语言模型能否可靠识别失语症语篇中的正确信息单元？

相似文章

你在说我的语言吗？关于多模态大语言模型中的口语遵循问题

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

评估大语言模型在会议中收件人检测、话轮转换和下一说话人预测的能力

不要让LLM说话，直接探测它（8分钟阅读）

LLMs难以衡量区分不同水平学生的能力：阅读理解评估中题目区分度研究

提交意见反馈