重探语义处理的痛点：语言模型的语义推理基准测试

arXiv cs.CL 2026/04/21 04:00 论文

摘要

研究人员推出了 SemanticQA 基准测试，旨在评估语言模型在包含习语、名词复合词及动词结构等语义短语处理任务上的表现。结果显示，不同架构与规模的模型在语义推理任务上的性能存在显著差异。

arXiv:2604.16593v1 公告类型：new 摘要：本文介绍了 SemanticQA，这是一套专为评估语言模型（LMs）在语义短语处理任务上的表现而设计的评测套件。该基准整合了现有的多词表达式（MwE）资源，并将其重组为一个统一的测试平台。评测内容既涵盖词汇搭配等一般性词汇现象，也包含三个细粒度类别：习语表达、名词复合词以及动词结构。通过 SemanticQA，我们针对具有不同架构和规模的多种语言模型，开展了抽取、分类与释义任务测试，并对顺序任务组合进行了评估。研究揭示了模型在不同任务上存在显著的性能差异，尤其是在涉及语义推理的任务中。这凸显了当前语言模型在推理效能与语义理解深度上的区别，为探索如何赋予模型更强的复杂语义短语理解能力提供了重要参考。SemanticQA 的评测框架及相关数据已开源，可在 https://github.com/jacklanda/SemanticQA 获取。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 07:03

# 再探棘手难题：语言模型的语义推理基准
来源：https://arxiv.org/abs/2604.16593
查看 PDF (https://arxiv.org/pdf/2604.16593)

> **摘要**：我们提出了 SemanticQA，一套旨在评估语言模型（LMs）在语义短语处理任务中表现的评价套件。该基准整合了现有的多词表达（MwE）资源，并将其重组为统一的测试平台。其覆盖范围既包含词汇搭配等基础词汇现象，也涵盖三个细粒度类别：习语表达、名词复合词与动词结构。借助 SemanticQA，我们评估了不同架构与规模的语言模型在信息抽取、分类判断及语义解释等任务上的表现，并进一步检验了其在顺序任务组合中的处理能力。研究发现模型性能存在显著分化，尤其在依赖语义推理的任务中更为明显，这充分暴露了不同 LMs 在推理效能与语义理解深度上的差异，为推动模型更好地掌握复杂非平凡语义短语提供了重要洞见。SemanticQA 的评测框架与数据集均已开源：https://github.com/jacklanda/SemanticQA

## 投稿历史

作者：Yang Liu [查看邮箱 (https://arxiv.org/show-email/ed5e06c8/2604.16593)] **[v1]** Fri, 17 Apr 2026 17:56:21 UTC \(574 KB\)

重探语义处理的痛点：语言模型的语义推理基准测试

相似文章

VLegal-Bench: 越南法律推理认知基础基准测试

@dbreunig: 推理模型擅长理解细微差别和自然语言。但这种细微之处尚未渗透到检索系统…

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

推出 SimpleQA

从基准测试到推理能力：大语言模型在越南法律文本上的双维度大规模评估

提交意见反馈