大语言模型能否可靠识别失语症语篇中的正确信息单元?
摘要
本研究探究了经过指令微调的大语言模型(Llama-3.1-8B、Qwen2.5-7B、Mistral-7B、Phi-3-mini)能否可靠地分类失语症语篇转录中的正确信息单元。少样本提示使三个模型获得了具有竞争力的F1分数(0.776–0.817),但性能因严重程度而异,且与人类标注的一致性仍不足以实现完全自主使用。
arXiv:2606.15696v1 公告类型:新
摘要:正确信息单元(CIU)是失语症语篇评估的核心,因为它们量化了交际信息量,而不仅仅是语言形式。然而,CIU评分耗时且需要经过培训的评分员。本研究检验了经过指令微调的大语言模型(LLM)能否从失语症语篇转录中可靠地执行词元级别的CIU分类。使用Cat Rescue刺激物诱发的十六个图片描述转录,根据Nicholas和Brookshire(1993)的方法对CIU状态进行了标注。样本涵盖四个严重程度层级:对照组、轻度、中度和重度失语症。四个公开可用的指令微调LLM在零样本和两种少样本提示条件下,跨越五个分层随机种子进行了基准测试。性能通过准确率、精确率、召回率、F1分数和Cohen's kappa与人类共识标签进行对比评估。零样本提示对所有模型均不足。相比之下,少样本提示带来了显著提升,并且三个可行模型表现出有竞争力的性能。Llama-3.1-8B、Qwen2.5-7B和Mistral-7B的平均少样本F1分数范围从0.776到0.817,固定全局示例选择和按块局部示例选择之间没有显著差异。Phi-3-mini不稳定,未产生可靠性能。可行模型显示出高召回率但较低的精确率,表明系统性地将词元过度分类为CIU。性能也因语篇严重程度而异,在更严重的失语症中结果最弱。少样本LLM提示可以在不进行基于梯度的任务训练的情况下支持自动化CIU识别,但与人工标注的一致性仍不足以实现完全自主使用。这些发现支持基于LLM的CIU评分作为语篇评估系统中一个有前景的人机协同组件。
查看缓存全文
缓存时间: 2026/06/16 11:48
# 大语言模型能否可靠识别失语症话语中的正确信息单元? 来源:https://arxiv.org/abs/2606.15696 查看PDF (https://arxiv.org/pdf/2606.15696) > 摘要:正确信息单元(CIU)是失语症话语评估的核心指标,因其量化的是交际信息量而非单纯的语言形式。然而,CIU评分耗时耗力,且需要经过培训的评分员。本研究考察了经过指令微调的大语言模型(LLM)能否根据失语症话语转录文本,在词元级别可靠地进行CIU分类。研究采用Cat Rescue图片描述刺激法,获取了16份图片描述转录文本,并根据Nicholas与Brookshire(1993)的标准对CIU状态进行了标注。样本涵盖四个严重程度层级:对照组、轻度、中度和重度失语症。研究对四个公开可用的指令微调大语言模型进行了基准测试,分别在零样本和两种少量样本提示条件下,跨越五个分层随机种子进行测试。以人工标注共识为基准,使用准确率、精确率、召回率、F1分数和Cohen's kappa评估性能。结果表明,零样本提示对各个模型均不充分。相比之下,少量样本提示带来了显著提升,并为三个可行模型产生了具有竞争力的表现。Llama-3.1-8B、Qwen2.5-7B和Mistral-7B的平均少量样本F1分数在0.776至0.817之间,且固定全局示例选择与每个语块局部示例选择之间无显著差异。Phi-3-mini表现不稳定,无法产生可靠结果。可行模型表现出高召回率但较低的精确率,表明存在将词元系统性地过度分类为CIU的趋势。性能还随话语严重程度而变化,在重度失语症中结果最弱。少量样本LLM提示可以支持自动CIU识别,无需基于梯度的任务训练,但与人工标注的一致性仍不足以用于全自动场景。这些发现支持将基于LLM的CIU评分作为话语评估系统中一个有前途的人机协同组件。 ## 提交历史 来自:Jason Pittman [查看邮箱 (https://arxiv.org/show-email/a226f98c/2606.15696)] **\[v1\]**2026年4月10日星期五 01:53:35 UTC (686 KB)
相似文章
你在说我的语言吗?关于多模态大语言模型中的口语遵循问题
本文解决了多模态大语言模型在ASR中的口语遵循问题,提出了一种软提示方法和新颖的度量标准来量化语言违规。它评估了三种缓解策略——零样本提示、监督微调和思维链推理——在多种语言上的效果,以提高转录保真度。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
评估大语言模型在会议中收件人检测、话轮转换和下一说话人预测的能力
本文评估了大语言模型(LLMs)和多模态大语言模型在多方会议对话中的收件人检测、话轮转换预测和下一说话人预测能力。结果表明,基于文本的LLMs在下一说话人预测上优于监督模型和人类,而多模态LLMs在其他任务上比纯文本模型有所提升,但表现仍低于人类。
不要让LLM说话,直接探测它(8分钟阅读)
本文介绍了一种技术,该技术从LLM的最后一个提示标记处提取隐藏状态,无需文本生成即可进行分类,使用一个小型MLP读取模型的内部决策,从而实现快速且廉价的零样本分类器。
LLMs难以衡量区分不同水平学生的能力:阅读理解评估中题目区分度研究
本文评估了42个大语言模型在测量阅读理解评估中题目区分度的能力,发现其与人类校准指标弱相关,并指出这是心理测量评估中的一个开放挑战。