大语言模型能否可靠识别失语症语篇中的正确信息单元?

arXiv cs.AI 论文

摘要

本研究探究了经过指令微调的大语言模型(Llama-3.1-8B、Qwen2.5-7B、Mistral-7B、Phi-3-mini)能否可靠地分类失语症语篇转录中的正确信息单元。少样本提示使三个模型获得了具有竞争力的F1分数(0.776–0.817),但性能因严重程度而异,且与人类标注的一致性仍不足以实现完全自主使用。

arXiv:2606.15696v1 公告类型:新 摘要:正确信息单元(CIU)是失语症语篇评估的核心,因为它们量化了交际信息量,而不仅仅是语言形式。然而,CIU评分耗时且需要经过培训的评分员。本研究检验了经过指令微调的大语言模型(LLM)能否从失语症语篇转录中可靠地执行词元级别的CIU分类。使用Cat Rescue刺激物诱发的十六个图片描述转录,根据Nicholas和Brookshire(1993)的方法对CIU状态进行了标注。样本涵盖四个严重程度层级:对照组、轻度、中度和重度失语症。四个公开可用的指令微调LLM在零样本和两种少样本提示条件下,跨越五个分层随机种子进行了基准测试。性能通过准确率、精确率、召回率、F1分数和Cohen's kappa与人类共识标签进行对比评估。零样本提示对所有模型均不足。相比之下,少样本提示带来了显著提升,并且三个可行模型表现出有竞争力的性能。Llama-3.1-8B、Qwen2.5-7B和Mistral-7B的平均少样本F1分数范围从0.776到0.817,固定全局示例选择和按块局部示例选择之间没有显著差异。Phi-3-mini不稳定,未产生可靠性能。可行模型显示出高召回率但较低的精确率,表明系统性地将词元过度分类为CIU。性能也因语篇严重程度而异,在更严重的失语症中结果最弱。少样本LLM提示可以在不进行基于梯度的任务训练的情况下支持自动化CIU识别,但与人工标注的一致性仍不足以实现完全自主使用。这些发现支持基于LLM的CIU评分作为语篇评估系统中一个有前景的人机协同组件。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:48

# 大语言模型能否可靠识别失语症话语中的正确信息单元?
来源:https://arxiv.org/abs/2606.15696
查看PDF (https://arxiv.org/pdf/2606.15696)

> 摘要:正确信息单元(CIU)是失语症话语评估的核心指标,因其量化的是交际信息量而非单纯的语言形式。然而,CIU评分耗时耗力,且需要经过培训的评分员。本研究考察了经过指令微调的大语言模型(LLM)能否根据失语症话语转录文本,在词元级别可靠地进行CIU分类。研究采用Cat Rescue图片描述刺激法,获取了16份图片描述转录文本,并根据Nicholas与Brookshire(1993)的标准对CIU状态进行了标注。样本涵盖四个严重程度层级:对照组、轻度、中度和重度失语症。研究对四个公开可用的指令微调大语言模型进行了基准测试,分别在零样本和两种少量样本提示条件下,跨越五个分层随机种子进行测试。以人工标注共识为基准,使用准确率、精确率、召回率、F1分数和Cohen's kappa评估性能。结果表明,零样本提示对各个模型均不充分。相比之下,少量样本提示带来了显著提升,并为三个可行模型产生了具有竞争力的表现。Llama-3.1-8B、Qwen2.5-7B和Mistral-7B的平均少量样本F1分数在0.776至0.817之间,且固定全局示例选择与每个语块局部示例选择之间无显著差异。Phi-3-mini表现不稳定,无法产生可靠结果。可行模型表现出高召回率但较低的精确率,表明存在将词元系统性地过度分类为CIU的趋势。性能还随话语严重程度而变化,在重度失语症中结果最弱。少量样本LLM提示可以支持自动CIU识别,无需基于梯度的任务训练,但与人工标注的一致性仍不足以用于全自动场景。这些发现支持将基于LLM的CIU评分作为话语评估系统中一个有前途的人机协同组件。

## 提交历史

来自:Jason Pittman [查看邮箱 (https://arxiv.org/show-email/a226f98c/2606.15696)] **\[v1\]**2026年4月10日星期五 01:53:35 UTC (686 KB)

相似文章

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。

不要让LLM说话,直接探测它(8分钟阅读)

TLDR AI

本文介绍了一种技术,该技术从LLM的最后一个提示标记处提取隐藏状态,无需文本生成即可进行分类,使用一个小型MLP读取模型的内部决策,从而实现快速且廉价的零样本分类器。