LGMT:基于逻辑的变形测试用于评估LLM推理可靠性
摘要
本文介绍了LGMT,这是一个利用一阶逻辑生成语义不变测试用例以评估LLM推理可靠性的框架。在六个LLM上的实验表明,LGMT暴露了静态基准遗漏的隐藏缺陷,提示评估应侧重于逻辑不变性下的鲁棒性。
arXiv:2605.23965v1 Announce Type: new
摘要:大型语言模型(LLMs)在逻辑推理基准测试中表现出色,但其可靠性仍不确定。现有的评估依赖于静态基准,无法评估逻辑等价变换下的鲁棒性,且往往高估推理能力。我们提出LGMT(基于逻辑的变形测试),一种无 oracle 框架,利用一阶逻辑(FOL)评估LLM推理。通过从形式逻辑等价中推导变形关系,LGMT构建语义不变的测试用例,并通过跨案例一致性检查检测推理缺陷。在六个最先进的LLM上的实验表明,LGMT暴露了传统基于参考的评估遗漏的大量隐藏缺陷。我们进一步发现,模型对符号级别和结论级别的变化特别敏感,而高级提示(如 Few-shot CoT)仅能部分缓解这些问题。这些结果表明,LLM评估应从孤立的正确性转向逻辑不变性下的鲁棒性。LGMT为诊断推理故障提供了一种原则性且可扩展的方法。
查看缓存全文
缓存时间: 2026/05/26 09:03
# LGMT:基于逻辑蜕变的测试方法,用于评估大语言模型的推理可靠性 来源:https://arxiv.org/abs/2605.23965 查看PDF (https://arxiv.org/pdf/2605.23965) > 摘要:大语言模型在逻辑推理基准上表现强劲,但其可靠性仍不确定。现有评估依赖静态基准,无法衡量在逻辑等价变换下的鲁棒性,且常常高估推理能力。我们提出LGMT(基于逻辑的蜕变测试),一种利用一阶逻辑评估LLM推理的无监督框架。通过从形式逻辑等价关系中推导蜕变关系,LGMT构建语义不变的测试用例,并通过跨用例一致性检查检测推理缺陷。在六个最先进的LLM上的实验表明,LGMT揭示了传统基于参考的评估所遗漏的大量隐藏缺陷。我们进一步发现,模型对符号级和结论级变化特别敏感,而高级提示策略(如少样本思维链)只能部分缓解这些问题。这些结果表明,LLM评估应超越孤立正确性,转向逻辑不变性下的鲁棒性。LGMT为诊断推理失败提供了一种原则性且可扩展的方法。 ## 提交历史 来自:周增辉 [查看邮箱](https://arxiv.org/show-email/44c8ae13/2605.23965) **[v1]** 2026年5月12日星期二 18:26:59 UTC (2,359 KB)
相似文章
逻辑正则化验证器激发大语言模型的推理能力
介绍了 LoVer,一种使用逻辑规则(否定一致性、组内一致性和组间一致性)来在无标签数据下提升大语言模型推理能力的无监督验证器,在推理基准测试中达到了接近监督验证器的性能。
LLMEval-Logic:一个经过求解器验证的、带有对抗性加固的大语言模型逻辑推理中文基准
LLMEval-Logic 是一个新的中文基准,专门评估大语言模型的逻辑推理能力,具有求解器验证的答案和对抗性加固。该基准揭示了当前模型的显著差距,最佳模型在困难项目上仅达到37.5%的准确率。
面向LLM推理的科学逻辑性增强方法:以物理学为例
本文介绍了一种增强LLM推理中科学逻辑性的方法论,包括评估标准与数据采样方法,并通过多款基座LLM在物理问题上的实验验证了其有效性。
LLM推理的周期表:推理范式、方法与失败模式的系统综述
一项综合分析超过300篇关于LLM推理的论文,提出了推理范式的分类体系,包括Chain-of-Thought、Multi-Hop、Mathematical、Commonsense等,并总结了常见的失败模式和研究空白。
几何潜在推理促使LLM生成更短文本
几何潜在推理(GLR)为LLM中的潜在推理引入了一种几何路径近似方法,能够在数学推理基准上保持准确性的同时实现更短的生成。