LGMT：基于逻辑的变形测试用于评估LLM推理可靠性

arXiv cs.AI 2026/05/26 04:00 论文

reasoning evaluation llm testing reliability logic metamorphic-testing

摘要

本文介绍了LGMT，这是一个利用一阶逻辑生成语义不变测试用例以评估LLM推理可靠性的框架。在六个LLM上的实验表明，LGMT暴露了静态基准遗漏的隐藏缺陷，提示评估应侧重于逻辑不变性下的鲁棒性。

arXiv:2605.23965v1 Announce Type: new 摘要：大型语言模型（LLMs）在逻辑推理基准测试中表现出色，但其可靠性仍不确定。现有的评估依赖于静态基准，无法评估逻辑等价变换下的鲁棒性，且往往高估推理能力。我们提出LGMT（基于逻辑的变形测试），一种无 oracle 框架，利用一阶逻辑（FOL）评估LLM推理。通过从形式逻辑等价中推导变形关系，LGMT构建语义不变的测试用例，并通过跨案例一致性检查检测推理缺陷。在六个最先进的LLM上的实验表明，LGMT暴露了传统基于参考的评估遗漏的大量隐藏缺陷。我们进一步发现，模型对符号级别和结论级别的变化特别敏感，而高级提示（如 Few-shot CoT）仅能部分缓解这些问题。这些结果表明，LLM评估应从孤立的正确性转向逻辑不变性下的鲁棒性。LGMT为诊断推理故障提供了一种原则性且可扩展的方法。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:03

# LGMT：基于逻辑蜕变的测试方法，用于评估大语言模型的推理可靠性
来源：https://arxiv.org/abs/2605.23965
查看PDF (https://arxiv.org/pdf/2605.23965)

> 摘要：大语言模型在逻辑推理基准上表现强劲，但其可靠性仍不确定。现有评估依赖静态基准，无法衡量在逻辑等价变换下的鲁棒性，且常常高估推理能力。我们提出LGMT（基于逻辑的蜕变测试），一种利用一阶逻辑评估LLM推理的无监督框架。通过从形式逻辑等价关系中推导蜕变关系，LGMT构建语义不变的测试用例，并通过跨用例一致性检查检测推理缺陷。在六个最先进的LLM上的实验表明，LGMT揭示了传统基于参考的评估所遗漏的大量隐藏缺陷。我们进一步发现，模型对符号级和结论级变化特别敏感，而高级提示策略（如少样本思维链）只能部分缓解这些问题。这些结果表明，LLM评估应超越孤立正确性，转向逻辑不变性下的鲁棒性。LGMT为诊断推理失败提供了一种原则性且可扩展的方法。

## 提交历史

来自：周增辉 [查看邮箱](https://arxiv.org/show-email/44c8ae13/2605.23965)  
**[v1]** 2026年5月12日星期二 18:26:59 UTC (2,359 KB)

LGMT：基于逻辑的变形测试用于评估LLM推理可靠性

相似文章

逻辑正则化验证器激发大语言模型的推理能力

LLMEval-Logic：一个经过求解器验证的、带有对抗性加固的大语言模型逻辑推理中文基准

面向LLM推理的科学逻辑性增强方法：以物理学为例

LLM推理的周期表：推理范式、方法与失败模式的系统综述

几何潜在推理促使LLM生成更短文本

提交意见反馈