超越逻辑形式:LLM提取的谬误分类模式
摘要
本文提出了一种谬误分类框架,利用LLM从谬误示例及其解释中提取模式,在零样本基线上取得了统计显著的改进,并展示了跨数据集的泛化能力。
arXiv:2606.26698v1 公告类型:新
摘要:在当今快节奏的信息时代,逻辑谬误(定义为有缺陷的推理模式)不可避免地加剧了信息混乱。然而,谬误往往以微妙的形式出现,使得自动分类变得复杂。在本研究中,我们探讨了将抽象逻辑结构与上下文级语言线索相结合是否对谬误分类有益,并开发了一个框架,该框架利用大型语言模型(LLM)从谬误示例及其解释中归纳性地提取此类模式。我们评估了这些模式在不同LLM以及实验性零样本和单样本配置中的影响,结果显示与零样本基线相比有统计显著的改进,并优于竞争方法。跨数据集实验验证了泛化能力,确立了数据驱动的模式提取作为生成逻辑表示的有效方法。
查看缓存全文
缓存时间: 2026/06/26 05:19
# 超越逻辑形式:大语言模型提取的谬误分类模式 来源:https://arxiv.org/abs/2606.26698 查看PDF (https://arxiv.org/pdf/2606.26698) > **摘要:**在当今快节奏的信息时代,逻辑谬误(定义为有缺陷的推理模式)不可避免地加剧了信息混乱。然而,谬误往往以微妙的形式出现,使得自动化分类变得复杂。在本研究中,我们探讨将抽象逻辑结构与上下文层面的语言线索相结合是否有助于谬误分类,并开发了一个框架,利用大语言模型(LLMs)从谬误示例及其解释中归纳提取此类模式。我们评估了这些模式在不同LLM以及零样本与单样本实验配置下的影响,结果显示在统计上显著优于零样本基线,并超越了其他竞争方法。跨数据集实验验证了其泛化能力,从而确立了数据驱动模式提取作为生成逻辑表示的有效方法。 ## 提交历史 发件人:Eleni Papadopulos [查看邮件](https://arxiv.org/show-email/615c8ffa/2606.26698) **[v1]** 2026年6月25日星期四 07:30:37 UTC (6,920 KB)
相似文章
面向LLM推理的科学逻辑性增强方法:以物理学为例
本文介绍了一种增强LLM推理中科学逻辑性的方法论,包括评估标准与数据采样方法,并通过多款基座LLM在物理问题上的实验验证了其有效性。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
LGMT:基于逻辑的变形测试用于评估LLM推理可靠性
本文介绍了LGMT,这是一个利用一阶逻辑生成语义不变测试用例以评估LLM推理可靠性的框架。在六个LLM上的实验表明,LGMT暴露了静态基准遗漏的隐藏缺陷,提示评估应侧重于逻辑不变性下的鲁棒性。
逻辑正则化验证器激发大语言模型的推理能力
介绍了 LoVer,一种使用逻辑规则(否定一致性、组内一致性和组间一致性)来在无标签数据下提升大语言模型推理能力的无监督验证器,在推理基准测试中达到了接近监督验证器的性能。
LLMEval-Logic:一个经过求解器验证的、带有对抗性加固的大语言模型逻辑推理中文基准
LLMEval-Logic 是一个新的中文基准,专门评估大语言模型的逻辑推理能力,具有求解器验证的答案和对抗性加固。该基准揭示了当前模型的显著差距,最佳模型在困难项目上仅达到37.5%的准确率。