重探语义处理的痛点:语言模型的语义推理基准测试

arXiv cs.CL 论文

摘要

研究人员推出了 SemanticQA 基准测试,旨在评估语言模型在包含习语、名词复合词及动词结构等语义短语处理任务上的表现。结果显示,不同架构与规模的模型在语义推理任务上的性能存在显著差异。

arXiv:2604.16593v1 公告类型:new 摘要:本文介绍了 SemanticQA,这是一套专为评估语言模型(LMs)在语义短语处理任务上的表现而设计的评测套件。该基准整合了现有的多词表达式(MwE)资源,并将其重组为一个统一的测试平台。评测内容既涵盖词汇搭配等一般性词汇现象,也包含三个细粒度类别:习语表达、名词复合词以及动词结构。通过 SemanticQA,我们针对具有不同架构和规模的多种语言模型,开展了抽取、分类与释义任务测试,并对顺序任务组合进行了评估。研究揭示了模型在不同任务上存在显著的性能差异,尤其是在涉及语义推理的任务中。这凸显了当前语言模型在推理效能与语义理解深度上的区别,为探索如何赋予模型更强的复杂语义短语理解能力提供了重要参考。SemanticQA 的评测框架及相关数据已开源,可在 https://github.com/jacklanda/SemanticQA 获取。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 07:03

# 再探棘手难题:语言模型的语义推理基准
来源:https://arxiv.org/abs/2604.16593
查看 PDF (https://arxiv.org/pdf/2604.16593)

> **摘要**:我们提出了 SemanticQA,一套旨在评估语言模型(LMs)在语义短语处理任务中表现的评价套件。该基准整合了现有的多词表达(MwE)资源,并将其重组为统一的测试平台。其覆盖范围既包含词汇搭配等基础词汇现象,也涵盖三个细粒度类别:习语表达、名词复合词与动词结构。借助 SemanticQA,我们评估了不同架构与规模的语言模型在信息抽取、分类判断及语义解释等任务上的表现,并进一步检验了其在顺序任务组合中的处理能力。研究发现模型性能存在显著分化,尤其在依赖语义推理的任务中更为明显,这充分暴露了不同 LMs 在推理效能与语义理解深度上的差异,为推动模型更好地掌握复杂非平凡语义短语提供了重要洞见。SemanticQA 的评测框架与数据集均已开源:https://github.com/jacklanda/SemanticQA

## 投稿历史

作者:Yang Liu [查看邮箱 (https://arxiv.org/show-email/ed5e06c8/2604.16593)] **[v1]** Fri, 17 Apr 2026 17:56:21 UTC \(574 KB\)

相似文章

VLegal-Bench: 越南法律推理认知基础基准测试

arXiv cs.CL

VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。

视觉语言模型真的能进行视觉推理吗?模态差距的严格研究

arXiv cs.CL

本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。

推出 SimpleQA

OpenAI Blog

OpenAI 推出 SimpleQA,一个新的事实性基准数据集,包含 4,326 个简短事实性问题,旨在评估前沿语言模型在提供准确答案而不产生幻觉的能力。该数据集通过双独立标注、严格标准实现高质量,估计错误率仅为 ~3%,GPT-4o 得分不到 40%。