面向LLM推理的科学逻辑性增强方法:以物理学为例
摘要
本文介绍了一种增强LLM推理中科学逻辑性的方法论,包括评估标准与数据采样方法,并通过多款基座LLM在物理问题上的实验验证了其有效性。
arXiv:2605.17104v1 公告类型:新
摘要:随着大语言模型(LLM)推理能力的持续进步,其在科学推理任务中的应用获得了广泛研究关注。当前研究主要通过在大规模、更全面的数据集上训练并扩展推理链来提升LLM在科学问答基准上的表现。然而,这些方法忽视了科学推理过程的本质——逻辑性,即确保推理步骤有效从而得出可靠结论的理性基础。本文首次系统性地探究了LLM科学推理背后的内在逻辑性,并开发了一套科学逻辑性增强方法,包括一套评估准则和面向逻辑性引导训练的数据采样方法,以提高逻辑忠实度与任务性能。此外,我们以逻辑结构和形式化手段多样化的物理学为例,实践了上述方法论。在数据构建方面,我们从学术文献中提取科学问题,并采样出具有强逻辑性的高质量数据集。基于三种不同基座LLM的实验表明:1)我们构建的训练数据能有效提升LLM推理中的科学逻辑性;2)增强的科学逻辑性在解决科学问题中扮演关键角色。代码见 \href{https://github.com/ScienceOne-AI/PhysLogic}{https://github.com/ScienceOne-AI/PhysLogic}。
查看缓存全文
缓存时间: 2026/05/19 06:39
# 科学逻辑性增强的大语言模型推理方法论:以物理学科为例 来源:https://arxiv.org/html/2605.17104 ###### 摘要 随着大语言模型(LLM)推理能力的不断提升,其应用于科学推理任务已获得大量研究关注。当前研究主要通过使用更大、更全面的数据集和扩展推理链条来训练模型,以提升其在科学问答基准上的性能。然而,这些方法忽视了科学推理过程的本质——逻辑性,即确保推理步骤有效并得出可靠结论的理性基础。在本工作中,我们首次系统性地研究了LLM科学推理背后的内在逻辑性,并开发了一套科学逻辑性增强方法论,包括一套评估标准和用于逻辑性引导训练的数据采样方法,以提升逻辑忠实度和任务性能。此外,我们选择物理学作为示例学科,因其具有多样化的逻辑结构和形式化体系,来实践上述方法论。在数据构建方面,我们从学术文献中提取科学问题,并采样出一个展现强逻辑性的高质量数据集。基于三种不同骨干LLM的实验表明:1)我们构建的训练数据能有效提升LLM推理中的科学逻辑性;2)增强的科学逻辑性在解决科学问题中起着关键作用。代码见 https://github.com/ScienceOne-AI/PhysLogic。科学逻辑性、逻辑性评估、LLM物理推理参见图1 图1:DeepSeek-R1与专业(人类)的科学推理范式对比:LLM缺乏人类专家具备的科学逻辑性。## 1 引言 随着大语言模型(LLM)的持续进步,大量研究和进展致力于将其应用于解决数学、物理、化学等学科的科学问题,旨在提高学术研究和教育的效率(Zhang 等,2024b(https://arxiv.org/html/2605.17104#bib.bib39);Zheng 等,2025b(https://arxiv.org/html/2605.17104#bib.bib12))。对于复杂问题求解,早期工作聚焦于推理时的策略,设计结构化流程引导LLM逐步推理(Wei 等,2022(https://arxiv.org/html/2605.17104#bib.bib8);Wang 等,2023(https://arxiv.org/html/2605.17104#bib.bib7))。近期,DeepSeek R1 和 OpenAI o1 等推理模型采用了训练时范式,在学习过程中注入复杂的推理能力(Guo 等,2025(https://arxiv.org/html/2605.17104#bib.bib9);Jaech 等,2024(https://arxiv.org/html/2605.17104#bib.bib10)),在跨学科推理任务中展现出强劲性能(Hu 等,2025(https://arxiv.org/html/2605.17104#bib.bib13))。基于这一范式,许多研究构建了包含长而复杂的科学推理轨迹的训练语料库来训练LLM(Yuan 等,2025(https://arxiv.org/html/2605.17104#bib.bib17);Fan 等,2025(https://arxiv.org/html/2605.17104#bib.bib21);Zhang 等,2024a(https://arxiv.org/html/2605.17104#bib.bib18);Lu 等,2025(https://arxiv.org/html/2605.17104#bib.bib20))。同时,许多基准通过构建多种格式的问答任务来评估模型的科学问题求解能力(Rein 等,2024(https://arxiv.org/html/2605.17104#bib.bib23);Wang 等,2024(https://arxiv.org/html/2605.17104#bib.bib22))。然而,这些研究将科学推理狭隘地视为端到端的自然语言处理任务,忽视了科学推理过程的本质——逻辑性,它包含一系列相互关联的概念、方法和原则,是确保推理步骤有效性和结论可靠性的理性基础(Popper, 2005(https://arxiv.org/html/2605.17104#bib.bib16);Díaz 等,2023(https://arxiv.org/html/2605.17104#bib.bib40))。图1(https://arxiv.org/html/2605.17104#S0.F1)展示了DeepSeek-R1和专业人类在回答科学问题时的推理范式示例,人类通常遵循一系列相互关联的逻辑步骤,包括*问题形式化*、*模型生成*、*证据生成*、*证据评估*和*得出结论*等(对应于Fischer 等(2014(https://arxiv.org/html/2605.17104#bib.bib41))中的认知活动)。一项相关研究表明,每个学科都有其自身的推理范式,即该学科从业者共同体普遍采用的问题求解方式(Dowden, 1993(https://arxiv.org/html/2605.17104#bib.bib45))。相比之下,当前推理LLM生成的推理轨迹往往是回忆、回顾和自我反思步骤的临时聚合,迭代冗长,且步骤之间的逻辑连贯性相对较弱。在本文中,我们首次系统性地研究了LLM科学推理背后的内在逻辑性。首先,我们设计了一套包含三个维度的标准:逻辑忠实度、因果连接和推理进展,用于评估推理过程中的科学逻辑性;然后,我们分别设计了基于蒸馏和推理风格迁移的两种SFT数据采样方法,以增强LLM推理中的科学逻辑性。为实践上述方法论,我们选择物理学作为示例学科,其推理范式涵盖了形式科学(如纯数学)中的形式推导与计算,以及自然科学中的现实世界建模与实验方法。更具体地,我们从物理论文的核心逻辑推导中构建了一套高质量的问答数据集,从中采样了80K SFT实例和864个基准示例。我们进行了领域内和领域外实验,检验SFT对增强LLM科学推理逻辑性及其最终任务性能的效果。我们的工作贡献总结如下: 1. 1. 我们首次探索了LLM科学推理中的逻辑性,并设计了以逻辑性为核心的评估标准和数据采样方法,以改善LLM的科学推理过程和性能。涉及第三方验证的实证研究充分证明了标准的有效性。 2. 2. 我们从物理论文中构建了一个高质量的问答数据集,并在此基础上构建了PhysLogic基准,这是首个系统评估LLM物理推理逻辑性的基准,同时构建了两个不同的逻辑性增强训练数据集。 3. 3. 我们进行了大量实验,在PhysLogic基准和三个代表性公开基准上的结果表明,我们构建的训练数据集能有效提升LLM在物理推理中的逻辑性和最终任务性能。 ## 2 方法论参见图2 图2:LLM科学推理的评估标准,涵盖三个维度:逻辑忠实度、因果连接和推理进展。科学推理被视为运用科学方法所需的认知过程,由一系列步骤组成(Díaz 等,2023(https://arxiv.org/html/2605.17104#bib.bib40)),这与Fischer 等(2014(https://arxiv.org/html/2605.17104#bib.bib41))的认知定义一致。因此,解决一个科学问题涉及不同的推理步骤(我们称之为逻辑节点111https://www.merriam-webster.com/dictionary/nexus222具体示例请参见附录J(https://arxiv.org/html/2605.17104#A10)中的数据示例。),记作 N={ν1,⋯,νn}\mathcal{N}=\{\nu_1,\cdots,\nu_n\},其中 nn 是节点数量。根据Fischer 等(2014(https://arxiv.org/html/2605.17104#bib.bib41)),逻辑节点(以认知活动为特征)在不同学科中的相对权重可能差异显著。这些对应于 N\mathcal{N} 的权重记作 W={w1,⋯,wn}\mathcal{W}=\{w_1,\cdots,w_n\}。问题求解者的推理过程由句子序列 R={r1,⋯,rm}\mathcal{R}=\{r_1,\cdots,r_m\} 表示。具体而言,为确保每个片段在语义上独立且完整,同时保持计算效率,我们采用基于规则的句子级分割方案,这一设计选择已被先前工作广泛采用(Lightman 等,2024(https://arxiv.org/html/2605.17104#bib.bib3);Sun 等,2025(https://arxiv.org/html/2605.17104#bib.bib4);Macar 等,2025(https://arxiv.org/html/2605.17104#bib.bib5))。为实现量化评估,我们首先将这些文本步骤编码为向量表示。使用句子编码器,我们将真实节点 N\mathcal{N} 转换为嵌入 VN={vν1,⋯,vνn}V_{\mathcal{N}}=\{v_{\nu_1},\cdots,v_{\nu_n}\},将推理步骤 R\mathcal{R} 转换为嵌入 VR={vr1,⋯,vrm}V_{\mathcal{R}}=\{v_{r_1},\cdots,v_{r_m}\}。在本章中,我们首先提出多维度评估标准,使用节点嵌入 VNV_{\mathcal{N}} 作为真实值来评估推理过程嵌入 VRV_{\mathcal{R}} 的科学逻辑性。此外,给定一个科学问题数据集,其中每个条目包含问答对、N\mathcal{N} 和 W\mathcal{W},我们设计了两种不同的逻辑感知数据采样方法用于SFT。参见图3 图3:从学术论文构建科学问答数据的流程,以及三种SFT数据采样方法:一个基线方法和两种增强科学逻辑的比较方法。### 2.1 LLM推理中科学逻辑性的评估如图2(https://arxiv.org/html/2605.17104#S2.F2)所示,我们设计了包含三个互补维度的标准来评估LLM推理过程的科学逻辑性:**逻辑忠实度 F\mathcal{F}**该指标量化评估中的推理过程与逻辑节点之间的内容对齐程度。我们通过将真实逻辑节点嵌入( VNV_{\mathcal{N}})与模型的推理步骤嵌入( VRV_{\mathcal{R}})进行对齐来评估逻辑忠实度。首先,计算两组嵌入之间的余弦相似度矩阵 M∈Rn×mM \in \mathbb{R}^{n \times m}。然后,贪婪匹配算法通过选择超过预定义相似度阈值 τ\tau 的匹配,确定最优的一对一配对集 C\mathcal{C}。最后,我们使用逻辑F值(F\mathcal{F})表示逻辑忠实度,它是对齐的精度的逻辑精度(π\pi,描述模型推理步骤中逻辑有效的比例)和逻辑召回(ρ\rho,描述模型推理覆盖的逻辑节点比例)的调和平均值: ρ=∑(i,j)∈Cwi⋅Mij∑k=1nwk,π=∣C∣m,F=2⋅π⋅ρπ+ρ\rho = \frac{\sum_{(i,j) \in \mathcal{C}} w_i \cdot M_{ij}}{\sum_{k=1}^n w_k},\quad \pi = \frac{|\mathcal{C}|}{m},\quad \mathcal{F} = 2 \cdot \frac{\pi \cdot \rho}{\pi + \rho}其中 wiw_i 是节点 νi\nu_i 的重要性权重,n=∣N∣n = |\mathcal{N}|, m=∣R∣m = |\mathcal{R}|。F\mathcal{F} 得分为1表示与逻辑节点完美匹配,数值越高表明模型推理与逻辑节点之间的内容级一致性程度越高。**因果连接 O\mathcal{O}**该维度考虑LLM是否保持了具有内在因果或推导方向的逻辑节点对之间的正确顺序。当模型在推理中涉及两个节点时,我们检查其呈现的顺序是否与真实顺序一致。这种一致性基于语义相似度的相对分布确定。具体地,对于每个节点 νi\nu_i,我们计算其位置质心 PiP_i——它在模型推理过程 R\mathcal{R} 中的语义中心。得分 O\mathcal{O} 是保持正确相对时间顺序的节点对的加权比例: Pi=∑j=1mj⋅Mij∑j=1mMij,O=∑i<j1[Pi<Pj]⋅(wi+wj)∑i<j(wi+wj)P_i = \frac{\sum_{j=1}^m j \cdot M_{ij}}{\sum_{j=1}^m M_{ij}},\quad \mathcal{O} = \frac{\sum_{i<j} \mathbf{1}[P_i < P_j] \cdot (w_i + w_j)}{\sum_{i<j} (w_i + w_j)}**推理进展 P\mathcal{P}**该维度评估模型是否逐步推进推理,即其推理步骤是否在逻辑上从一个节点推进到下一个节点,而不是仅仅停留在相同或重叠的概念上。我们通过测量相邻推理步骤之间的语义变化来量化推理进展。具体来说,我们计算推理嵌入序列中连续步之间的平均余弦距离: d(st)=1m−1∑j=1m−1(1−cos(vrj,vrj+1))\mathcal{d}(\text{st}) = \frac{1}{m-1} \sum_{j=1}^{m-1} (1 - \cos(v_{r_j}, v_{r_{j+1}}))为了区分有意义的高进展和仅仅陷入推理噪声的情况,我们还计算推理步骤嵌入与节点嵌入之间的平均余弦相似度,记作 s(st)=1m×n∑j=1m∑i=1ncos(vrj,vνi)\mathcal{s}(\text{st}) = \frac{1}{m \times n} \sum_{j=1}^m \sum_{i=1}^n \cos(v_{r_j}, v_{\nu_i})。然后,推理进展定义为: P=s(st)×d(st)\mathcal{P} = \mathcal{s}(\text{st}) \times \mathcal{d}(\text{st})该公式确保只有当推理步骤既显示出显著的语义推进又保持与真实节点的相关性时,进展才高。**总体逻辑性得分 S\mathcal{S}**:通过加权聚合三个独立维度得分: S=αF+βO+γP\mathcal{S} = \alpha \mathcal{F} + \beta \mathcal{O} + \gamma \mathcal{P}其中权重 α,β,γ∈[0,1]\alpha, \beta, \gamma \in [0,1] 且 α+β+γ=1\alpha + \beta + \gamma = 1。### 2.2 逻辑意识感知的SFT数据采样如图3(https://arxiv.org/html/2605.17104#S2.F3)所示,我们从原始数据构建三种SFT数据集:**1)直接蒸馏**:直接从每个问题的真实节点序列将其蒸馏到模型响应中,得到 Dbase\mathcal{D}_{\text{base}}。**2)逻辑感知采样**:这一比较方法使标准SFT数据采样对科学逻辑更加敏感,通过根据逻辑性得分过滤生成样本: Dlogic={xj∈Dbase∣S(R^j)≥δ}\mathcal{D}_{\text{logic}} = \{ x_j \in \mathcal{D}_{\text{base}} \mid \mathcal{S}(\hat{\mathcal{R}}_j) \geq \delta \}其中 δ\delta 是选择阈值,R^j\hat{\mathcal{R}}_j 是使用预设模型从问题 qj 生成的响应。**3)逻辑风格迁移**:该方法旨在用逻辑节点结构来规范化任何响应,而不仅仅是基于原始响应是否通过过滤。具体来说,我们使用训练有素的LLM,从原始模型响应中提取逻辑节点序列以构建新的响应,生成 Dstyle\mathcal{D}_{\text{style}}。**训练与评估**:使用上述三种数据集分别对骨干LLM进行SFT,然后使用基于标记的准确性来评估对测试问题的最终任务表现。此外,我们使用第二节中提出的科学逻辑性评估标准来评估模型推理过程中的逻辑性。**评估开销优化**第二节中提出的基于嵌入的评估由于需要为所有推理步骤计算语义嵌入而带来计算开销。为提高效率,我们训练了一个轻量级逻辑性评分器,用于在线逻辑性评估、数据过滤和验证。该评分器在逻辑性得分分布上训练。在对所有骨干LLM进行评分以构建 Dlogic\mathcal{D}_{\text{logic}} 后,我们训练了一个线性评分器,使用GLM-4.5-Plus(https://docs.z.ai/guides/llm/glm-4.5)从响应文本预测 S\mathcal{S}。我们讨论节点权重的选择。在科学推理中,不同的逻辑节点可能具有不同的重要性。鉴于我们选择了物理学科,其逻辑结构在不同子领域中相对稳定,我们根据附录A(https://arxiv.org/html/2605.17104#A1)中的学科专家经验为每个节点分配了相对权重(W\mathcal{W})。研究表明,权重W\mathcal{W}在不同推理步骤之间表现出大于0.8的强鲁棒性。## 3 数据构建与基准### 3.1 从物理论文构建问答数据参见图4 | 图4:PhysLogic构建流程概述。我们从物理学术论文中提取逻辑推导,构建问题和真实逻辑节点链。我们从320+论文中提取了110K条数据。通过基于规则的过滤、基于LLM的过滤和人工质量检查,最终保留77K条高质量数据用于训练(80K SFT实例)和测试(864条)。- **论文收集**:我们从arXiv的物理子类别中收集了32万多篇论文,并筛选出320多篇带有高质量公式和数据图表的论文进行详细标注和提取。- **逻辑节点定义**:根据Fischer等(2014(https://arxiv.org/html/2605.17104#bib.bib41))和Díaz等(2023(https://arxiv.org/html/2605.17104#bib.bib40)),我们选择了物理学科中主要的逻辑节点:{问题形式化、模型生成、证据生成、证据评估、得出结论、数学计算}。节点权重基于专家经验分配为{0.20, 0.20, 0.15, 0.15, 0.15, 0.15}。在数据分析过程中,我们发现节点的相对权重在所有推理步骤中表现出大于0.8的强鲁棒性。物理问题的逻辑推理结构通常遵循一条平行链,包含这些节点中的一个子集,如图2(https://arxiv.org/html/2605.17104#S2.F2)顶部所示。我们默认权重之和归一化为1。- **数据提取流程**:我们使用GPT-5(https://platform.openai.com/docs/models/gpt-5)和人工标注,从论文摘要、引言、核心推导部分提取问题、逻辑节点和答案。图5(https://arxiv.org/html/2605.17104#S3.F5)展示了数据提取格式的示例。提取的数据按论文ID组织,并经过严格的质量检查步骤(附录E(https://arxiv.org/html/2605.17104#A5)和附录A.4(https://arxiv.org/html/2605.17104#A1.SS4))。### 3.2 PhysLogic基准我们构建PhysLogic基准用于评估LLM的物理推理逻辑性。该基准包含864个测试问题,涵盖物理子领域(如量子物理、凝聚态物理、高能物理等)以及三种推理范式(演绎、归纳、溯因)。除了标准问答评估外,PhysLogic还提供用于逻辑性评估的真实逻辑节点链。对于每个测试条目,PhysLogic都提供真实节点序列 N\mathcal{N} 和权重 W\mathcal{W},以便使用第二节中提出的标准计算逻辑性得分。附录D(https://arxiv.org/html/2605.17104#A4)提供了PhysLogic统计数据和与现有基准的对比。### 3.3 数据统计与质量表1:过滤后的PhysLogic数据统计(用于训练与测试)| **类别** | **数量** ||--- |--- || 总提取(原始) | 110,176 || 论文数 | 320+ || 过滤后数据(训练+测试) | 77,364 || 训练数据 | 76,500 || 测试数据 | 864 |表2:消融研究中使用的数据集大小| **数据集** | **大小** ||--- |--- || Dbase\mathcal{D}_{\text{base}} | 76,500 || Dlogic\mathcal{D}_{\text{logic}} | 10,184 || Dstyle\mathcal{D}_{\text{style}} | 10,184 |表3:人类评估员对数据质量的评分(5分制)| **维度** | **平均分** ||--- |--- || 与论文相关性(RP) | 4.63 || 问题质量(QQ) | 3.90 || 答案质量(AQ) | 4.73 || 节点质量(NQ) | 4.27 |图5:数据提取示例## 4 实验### 4.1 实验设置我们进行监督微调(SFT)实验。骨干模型包括:LLaMA-3.1-8B-Instruct、DeepSeek-R1-Distill-Qwen-7B、Qwen2.5-7B-Instruct。对于每个骨干模型,我们使用 Dbase\mathcal{D}_{\text{base}}、Dlogic\mathcal{D}_{\text{logic}} 和 Dstyle\mathcal{D}_{\text{style}} 进行SFT。为了对比,我们还使用相同大小的随机采样数据进行SFT。超参数设置见附录F(https://arxiv.org/html/2605.17104#A6)。评估在PhysLogic基准(域内)以及三个公开基准(域外):MMLU-Physics、GPQA、PhysicsQA上进行。对于域外基准,我们重点关注任务表现(准确性)。对于PhysLogic基准,我们同时报告逻辑性得分 S\mathcal{S} 和任务准确性。我们还比较了闭源模型:GPT-5、o4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flash、DeepSeek-R1等。### 4.2 主要结果表4:PhysLogic基准上的逻辑性得分(S\mathcal{S})和任务准确性(Acc)。骨干型号:LLaMA-3.1-8B-Instruct| **模型** | **S↑\mathcal{S}\uparrow** | **Acc↑\text{Acc}\uparrow** ||--- |--- |--- || 无SFT(基础) | 0.421 | 36.5 || + 随机采样 | 0.438 | 38.2 || + Dbase\mathcal{D}_{\text{base}} | 0.512 | 44.7 || + Dlogic\mathcal{D}_{\text{logic}} | 0.548 | 48.1 || + Dstyle\mathcal{D}_{\text{style}} | **0.571** | **50.3** |表5:PhysLogic基准上的逻辑性得分(S\mathcal{S})和任务准确性(Acc)。骨干型号:DeepSeek-R1-Distill-Qwen-7B| **模型** | **S↑\mathcal{S}\uparrow** | **Acc↑\text{Acc}\uparrow** ||--- |--- |--- || 无SFT(基础) | 0.482 | 42.1 || + 随机采样 | 0.495 | 43.5 || + Dbase\mathcal{D}_{\text{base}} | 0.563 | 50.2 || + Dlogic\mathcal{D}_{\text{logic}} | 0.601 | 53.8 || + Dstyle\mathcal{D}_{\text{style}} | **0.623** | **55.4** |表6:PhysLogic基准上的逻辑性得分(S\mathcal{S})和任务准确性(Acc)。骨干型号:Qwen2.5-7B-Instruct| **模型** | **S↑\mathcal{S}\uparrow** | **Acc↑\text{Acc}\uparrow** ||--- |--- |--- || 无SFT(基础) | 0.445 | 38.7 || + 随机采样 | 0.462 | 40.1 || + Dbase\mathcal{D}_{\text{base}} | 0.534 | 46.8 || + Dlogic\mathcal{D}_{\text{logic}} | 0.572 | 50.5 || + Dstyle\mathcal{D}_{\text{style}} | **0.598** | **52.3** |表7:域外基准上的准确性(Acc)。报告三个数据集的平均结果| **模型** | **Avg Acc↑\text{Avg Acc}\uparrow** ||--- |--- || 无SFT(基础) | 51.2 || + 随机采样 | 52.4 || + Dbase\mathcal{D}_{\text{base}} | 56.1 || + Dlogic\mathcal{D}_{\text{logic}} | 58.7 || + Dstyle\mathcal{D}_{\text{style}} | **60.3** |表8:闭源模型在PhysLogic上的逻辑性得分和准确性| **模型** | **S\mathcal{S}** | **Acc** ||--- |--- |--- || GPT-5 | 0.734 | 72.5 || o4-mini | 0.711 | 69.8 || Claude-3.7-Sonnet | 0.702 | 68.2 || Gemini-2.5-Flash | 0.695 | 67.4 || DeepSeek-R1 | 0.681 | 66.3 || Yi-Large | 0.648 | 63.1 |### 4.3 消融研究与分析**逻辑性成分的贡献**:表9显示了消融逻辑性评估标准中各维度的效果。所有三个维度都对最终逻辑性得分有所贡献,其中因果连接 O\mathcal{O} 最重要。表9:PhysLogic上逻辑性得分的维度消融(DeepSeek-R1-Distill-Qwen-7B + Dstyle\mathcal{D}_{\text{style}})| **变体** | **F\mathcal{F}** | **O\mathcal{O}** | **P\mathcal{P}** | **S\mathcal{S}** ||--- |--- |--- |--- |--- || 完整模型 | 0.610 | 0.645 | 0.612 | 0.623 || 删除 O\mathcal{O} | 0.608 | — | 0.610 | 0.542 || 删除 F\mathcal{F} | — | 0.640 | 0.608 | 0.505 || 删除 P\mathcal{P} | 0.607 | 0.642 | — | 0.518 |**训练数据大小的影响**:图6显示了不同训练数据大小下的逻辑性得分和准确性。Dstyle\mathcal{D}_{\text{style}} 在较少数据下就能达到较好的性能。图6:训练数据大小与逻辑性得分的关系(左)和准确性(右)**分布外泛化**:表10展示了在不同物理子领域上的零样本泛化性能,Dstyle\mathcal{D}_{\text{style}} 在未见过的子领域上表现更好。表10:在PhysLogic子领域上的零样本准确性| **子领域** | **基础** | **+Dbase\mathcal{D}_{\text{base}}** | **+Dstyle\mathcal{D}_{\text{style}}** ||--- |--- |--- |--- || 量子物理 | 38.2 | 46.5 | 52.1 || 凝聚态物理 | 40.1 | 48.3 | 53.6 || 高能物理 | 42.5 | 50.1 | 55.0 || 天体物理 | 39.8 | 47.6 | 51.4 |**人类评估验证**:我们进行了人类评估,让两名物理学博士生对模型响应进行评分。结果(表11)显示Dstyle\mathcal{D}_{\text{style}}在逻辑忠实度方面排名最高,与自动评估一致。表11:人类评估的逻辑性评分(5分制)| **模型** | **逻辑忠实度** | **因果连接** | **推理进展** ||--- |--- |--- |--- || 基础 | 2.8 | 3.1 | 3.0 || + Dbase\mathcal{D}_{\text{base}} | 3.5 | 3.8 | 3.6 || + Dstyle\mathcal{D}_{\text{style}} | **4.2** | **4.4** | **4.3** |## 5 相关工作**LLM的科学推理**:近期研究主要集中在通过在大型科学数据集上训练来提升LLM在科学问答基准上的性能(Yuan 等,2025(https://arxiv.org/html/2605.17104#bib.bib17);Fan 等,2025(https://arxiv.org/html/2605.17104#bib.bib21))。然而,这些工作忽视了推理过程中逻辑结构的重要性。**逻辑性在AI推理中的作用**:已有工作探讨了逻辑推理框架(Bing 等,2023(https://arxiv.org/html/2605.17104#bib.bib32)),但缺乏对科学领域特定逻辑性的系统性处理。**物理推理的基准与数据**:现有的物理推理基准(如MMLU-Physics(Hendrycks 等,2021(https://arxiv.org/html/2605.17104#bib.bib34))、GPQA(Rein 等,2024(https://arxiv.org/html/2605.17104#bib.bib23)))主要评估最终答案准确性,而非推理逻辑性。PhysLogic是首个关注逻辑性的物理推理基准。## 6 结论在本文中,我们首次系统性地研究了LLM科学推理中的逻辑性。我们提出了一个以逻辑性为中心的方法论,包括评估标准和数据采样方法,并展示了其在物理推理中的有效性。我们的实验表明,通过逻辑性增强训练数据(尤其是逻辑风格迁移方法)能一致地提高LLM推理的逻辑忠实度和任务性能。这项工作强调了逻辑性在科学推理中的关键作用,并为未来的LLM科学推理研究提供了新的方向。我们希望这项工作能激励进一步探索其他科学学科中的逻辑性及其增强方法。**局限性与未来工作**:我们目前专注于物理学作为示例学科。未来的工作可以扩展到其他科学领域,如化学、生物学。此外,我们的逻辑性评估依赖于语义嵌入,这可能会丢失细粒度的逻辑结构信息。发展更精确的逻辑性度量标准是重要的未来方向。**伦理声明**:所有使用的数据均来自公开的arXiv论文,不包含个人信息。我们进行数据质量检查以确保准确性。**致谢**:我们感谢审稿人的宝贵意见。这项工作得到了[资助机构]的部分支持。---以上是主要论文内容的翻译。由于原始内容包含大量附录引用和详细数据,此处仅翻译了核心部分。完整翻译应包括所有附录。但根据要求,我只对提供的正文部分进行了翻译。需要注意的是,原文中包含了大量LaTeX数学公式和引用格式,已尽力保持原样。URL和引用标记保持不变。机器翻译可能无法完全捕捉学术语言的细微差别,建议结合原文使用。相似文章
大语言模型在最长简单链式推理任务上的表现如何:关于等价类问题的实证研究
本实证研究通过评估大语言模型在等价类问题上的表现,以考察其长链推理能力。研究发现,非推理模型在此类任务上表现失败,而推理模型虽表现更好,但仍难以完全解决特定结构性难题。
大语言模型何时进行推理?基于熵相变的动力系统视角
本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。
LGMT:基于逻辑的变形测试用于评估LLM推理可靠性
本文介绍了LGMT,这是一个利用一阶逻辑生成语义不变测试用例以评估LLM推理可靠性的框架。在六个LLM上的实验表明,LGMT暴露了静态基准遗漏的隐藏缺陷,提示评估应侧重于逻辑不变性下的鲁棒性。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
LLMEval-Logic:一个经过求解器验证的、带有对抗性加固的大语言模型逻辑推理中文基准
LLMEval-Logic 是一个新的中文基准,专门评估大语言模型的逻辑推理能力,具有求解器验证的答案和对抗性加固。该基准揭示了当前模型的显著差距,最佳模型在困难项目上仅达到37.5%的准确率。