LGMT:基于逻辑的变形测试用于评估LLM推理可靠性

arXiv cs.AI 论文

摘要

本文介绍了LGMT,这是一个利用一阶逻辑生成语义不变测试用例以评估LLM推理可靠性的框架。在六个LLM上的实验表明,LGMT暴露了静态基准遗漏的隐藏缺陷,提示评估应侧重于逻辑不变性下的鲁棒性。

arXiv:2605.23965v1 Announce Type: new 摘要:大型语言模型(LLMs)在逻辑推理基准测试中表现出色,但其可靠性仍不确定。现有的评估依赖于静态基准,无法评估逻辑等价变换下的鲁棒性,且往往高估推理能力。我们提出LGMT(基于逻辑的变形测试),一种无 oracle 框架,利用一阶逻辑(FOL)评估LLM推理。通过从形式逻辑等价中推导变形关系,LGMT构建语义不变的测试用例,并通过跨案例一致性检查检测推理缺陷。在六个最先进的LLM上的实验表明,LGMT暴露了传统基于参考的评估遗漏的大量隐藏缺陷。我们进一步发现,模型对符号级别和结论级别的变化特别敏感,而高级提示(如 Few-shot CoT)仅能部分缓解这些问题。这些结果表明,LLM评估应从孤立的正确性转向逻辑不变性下的鲁棒性。LGMT为诊断推理故障提供了一种原则性且可扩展的方法。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:03

# LGMT:基于逻辑蜕变的测试方法,用于评估大语言模型的推理可靠性
来源:https://arxiv.org/abs/2605.23965
查看PDF (https://arxiv.org/pdf/2605.23965)

> 摘要:大语言模型在逻辑推理基准上表现强劲,但其可靠性仍不确定。现有评估依赖静态基准,无法衡量在逻辑等价变换下的鲁棒性,且常常高估推理能力。我们提出LGMT(基于逻辑的蜕变测试),一种利用一阶逻辑评估LLM推理的无监督框架。通过从形式逻辑等价关系中推导蜕变关系,LGMT构建语义不变的测试用例,并通过跨用例一致性检查检测推理缺陷。在六个最先进的LLM上的实验表明,LGMT揭示了传统基于参考的评估所遗漏的大量隐藏缺陷。我们进一步发现,模型对符号级和结论级变化特别敏感,而高级提示策略(如少样本思维链)只能部分缓解这些问题。这些结果表明,LLM评估应超越孤立正确性,转向逻辑不变性下的鲁棒性。LGMT为诊断推理失败提供了一种原则性且可扩展的方法。

## 提交历史

来自:周增辉 [查看邮箱](https://arxiv.org/show-email/44c8ae13/2605.23965)  
**[v1]** 2026年5月12日星期二 18:26:59 UTC (2,359 KB)

相似文章

逻辑正则化验证器激发大语言模型的推理能力

arXiv cs.CL

介绍了 LoVer,一种使用逻辑规则(否定一致性、组内一致性和组间一致性)来在无标签数据下提升大语言模型推理能力的无监督验证器,在推理基准测试中达到了接近监督验证器的性能。

几何潜在推理促使LLM生成更短文本

Hugging Face Daily Papers

几何潜在推理(GLR)为LLM中的潜在推理引入了一种几何路径近似方法,能够在数学推理基准上保持准确性的同时实现更短的生成。