从零阶选择到二阶判断：组合硬化暴露前沿大语言模型的组合性缺陷

arXiv cs.CL 2026/05/11 04:00 论文

摘要

本文介绍了 LogiHard，这是一个利用组合硬化来暴露前沿大语言模型组合性缺陷的框架，展示了模型在逻辑推理任务中准确率的显著下降。

arXiv:2605.07268v1 公告类型：新论文摘要：多项选择题推理基准面临双重挑战：模型性能的快速饱和，以及数据污染削弱了静态评估的有效性。临时的硬化方法（如改写、扰动）试图增加难度，但以逻辑有效性换取表面复杂性，未能有效挑战先进的推理模型。我们提出了 LogiHard，这是一个形式化框架，能够确定性地将零阶选择转化为二阶逻辑判断，从而显著增加思维负荷和推理步骤。该框架集成了用于计算机自适应测试（CAT）的项目反应理论（IRT），使得相比静态基准，能够以更少的题目实现精确的难度控制。我们通过 LogiHard-2k 实例化了该框架，这是一个逻辑推理数据集，通过对高利害考试的题目进行基于模型思维轨迹的九维认知排名，并对高难度题目进行组合转换构建而成。对十二个最先进模型的评估显示，在组合硬化后的题目上，准确率下降了 31% 到 56%。大语言模型表现出多选失败和早退偏见，而这些现象在人类受试者中并不存在。在 MMLU 上的零样本迁移测试显示准确率下降了 47%（从 89.84% 降至 42.86%），证实了其在跨领域应用中的有效性及逻辑有效性的保持。这种一致的整体性能退化与领域无关，并非源于知识缺陷，而是源于组合推理差距，反映了由训练引起的完整性验证缺陷。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 06:57

# 从 0 阶选择到 2 阶判断：组合硬化揭示了前沿大语言模型中的组合性失败

**来源**: https://arxiv.org/html/2605.07268
**作者**: Hanmeng Liu$^1$, Shichao Weng$^2$, Xiulai Li$^1$, Zhicai Zhang$^1$, Anli Yan$^1$, Xiaozhang Liu$^1$
$^1$海南大学，中国海口
$^2$复旦大学，中国上海
\{liuhanmeng,lixiulai01,zzcai,yananli,lxzh\}@hainanu.edu.cn, [email protected]

###### 摘要

多项选择推理基准面临双重挑战：模型能力的快速饱和以及破坏静态评估有效性的数据污染。临时的硬化方法（如释义、扰动）试图增加难度，但以牺牲逻辑有效性为代价换取表面复杂性，无法对高级推理模型构成真正挑战。我们提出了 LogiHard，这是一个形式化框架，通过将 0 阶选择确定性地转换为 2 阶逻辑判断，显著增加了思维开销和推理步骤。该框架整合了用于计算机自适应测试（CAT）的项目反应理论（IRT），使得使用比静态基准更少的题目即可实现精确的难度控制。我们构建了 LogiHard-2k，这是一个逻辑推理数据集，通过对高利害考试题目进行基于模型思维轨迹的 9 维度认知分析来排名，随后对高难度题目进行组合变换。对十二种最先进模型的评估显示，在组合硬化题目上的准确率下降了 31% 至 56%。大语言模型表现出多选失败和提前退出偏差，而人类受试者并不具备这些特征。在 MMLU 上的零样本迁移显示出 47% 的准确率下降（89.84% → 42.86%），证实了其在保持可证明有效性前提下的跨领域适用性。这种一致的总体性能退化与领域无关，并非源于知识缺陷，而是源于组合推理差距，反映了由训练引起的完整性验证缺失。

## 1 引言

多项选择题（MCQs）仍然是评估大语言模型（LLMs）的主流范式（mmlu2021, (https://arxiv.org/html/2605.07268#bib.bib11); bbh2022, (https://arxiv.org/html/2605.07268#bib.bib34); phan2025lastexam, (https://arxiv.org/html/2605.07268#bib.bib2)），其中逻辑推理基准因其能够分离纯粹推理与领域特定知识而受到特别关注。大型推理模型（LRMs）（deepseekai2025deepseekr1incentivizingreasoningcapability, (https://arxiv.org/html/2605.07268#bib.bib7); qwq32b, (https://arxiv.org/html/2605.07268#bib.bib29)）的近期兴起通过利用测试时缩放和带有反思的扩展思维链（CoT）（chen2025reasoningerasurveylong, (https://arxiv.org/html/2605.07268#bib.bib3)），在复杂推理任务中取得了前所未有的性能，加速了这一趋势。在如 LogiQA（10174688, (https://arxiv.org/html/2605.07268#bib.bib18); liu2023logicot, (https://arxiv.org/html/2605.07268#bib.bib19)）等逻辑推理数据集上进行监督微调，已成为灌输基础推理能力的常见做法（muennighoff2025s1simpletesttimescaling, (https://arxiv.org/html/2605.07268#bib.bib25); nvidia2025nvidianemotronnano2, (https://arxiv.org/html/2605.07268#bib.bib26)）。

然而，LRMs 的发展导致推理基准迅速饱和。GPT-5 在 MMLU 上的得分高达 92.5%（singh2026openaigpt5card, (https://arxiv.org/html/2605.07268#bib.bib32)），Sonnet 3.5 在 BBH 上超过 93.1%（bbh2022, (https://arxiv.org/html/2605.07268#bib.bib34)），OpenAI o1 在 LogiQA 上的平均准确率达到 90.0%（latif2025comparative, (https://arxiv.org/html/2605.07268#bib.bib15)）。这些数字并非表明机器推理问题已解决，而是标志着静态评估的失效（malek2025frontierllmsstrugglesimple, (https://arxiv.org/html/2605.07268#bib.bib22)）。当代模型通过训练集记忆和利用表面模式（位置偏差、词汇重叠、风格线索）实现了部分超人级别的准确率（xie-etal-2025-memorization (https://arxiv.org/html/2605.07268#bib.bib40)）。

作为回应，各种临时硬化方法层出不穷：“以上皆非”（NOTA）干扰项（tam2025none, (https://arxiv.org/html/2605.07268#bib.bib35); madhusudhan2025llms, (https://arxiv.org/html/2605.07268#bib.bib21)）、对抗性扰动（wallace2021universaladversarialtriggersattacking, (https://arxiv.org/html/2605.07268#bib.bib37); moffett-dhingra-2025-close, (https://arxiv.org/html/2605.07268#bib.bib24)）以及基于模板的混淆（gsm-symbolic, (https://arxiv.org/html/2605.07268#bib.bib23)）。然而，这些方法遭受着根本性的*有效性危机*，即需要人工验证才能确保程序的严谨性（park2025vlmcont, (https://arxiv.org/html/2605.07268#bib.bib27)）。随机扰动会在生成的问题中引入语义漂移和无意伪影（sun2025emperor, (https://arxiv.org/html/2605.07268#bib.bib33); chen-etal-2025-benchmarking-large, (https://arxiv.org/html/2605.07268#bib.bib4)），而非消除污染；而 NOTA 变体虽然通过要求模型拒绝所有干扰项增加了表面验证负担，但它们仍属于*0 阶选择任务*，并未提升逻辑阶数——核心推理步骤仍然是从候选项中识别单个正确选项，而非评估复合命题约束。因此，它们无法挑战那些已经擅长扩展思维链验证的最先进推理模型。

**图 1**: LogiHard-2k 基准的一个示例
*(请参阅图注)*

为了解决这一问题，我们提出了 LogiHard，这是一个用于动态难度评估的形式化框架，通过命题逻辑组合学确定性地转换多项选择题。我们的核心前提是：如果一个模型真正理解逻辑蕴涵，它应该能够处理当原子命题以组合约束形式表达时的相同知识。如图 1 所示（https://arxiv.org/html/2605.07268#S1.F1），LogiHard 并非破坏表面文本，而是通过将原子选项映射到命题变量并合成复合公式（包括精确性、析取和否定）来提升推理阶数，模型必须在真值指派下评估这些公式。这将任务从 0 阶选择转换为 2 阶逻辑判断，确保*构建即有效*，同时使记忆失效。

LogiHard 包含三个协同组件：
1) 一个*确定性组合协议*，通过可控的命题复杂性（例如，简单：$\land$，中等：$\lor$，困难：$\neg$，专家：复合 $\neg$）合成逻辑有效且难度校准的题目；
2) 一个*认知难度评分*模块，从模型思维轨迹中提取 9 维指标（振荡点、逻辑密度、溯因深度），以在硬化前对项目进行实证排名；
3) 一个基于项目反应理论（IRT）（lord1980applications, (https://arxiv.org/html/2605.07268#bib.bib20)）和计算机自适应测试（CAT）的*动态评估协议*，使得使用比静态基准更少的题目即可实现高效的能力估计 $\hat{\theta}$。

为了严格验证这一框架，我们实例化了 LogiHard-2k，这是一个源自高利害人类考试的本地逻辑推理数据集，通过三段论、类比和命题推理隔离纯逻辑演绎。对十二种最先进模型的评估揭示了一种根本性的组合多选推理失败——尽管在常规基准上表现强劲，但所有系统均表现出严重退化——证实了当前模型缺乏稳健的命题约束满足能力。

我们的贡献有三方面：
1. **有效性保证的硬度合成**。一种确定性组合协议，通过“构建即有效”将 MCQs 转换为命题逻辑任务，将推理从 0 阶选择提升到 2 阶判断，同时抵抗记忆——正确答案决定真值指派，但原子选项从不直接出现在输出中，这使得记忆失效，同时消除了对抗性方法的语义漂移。
2. **动态难度控制**。我们通过两个核心机制建立自适应评估：(i) 通过组合协议的分级运算符配置实现*上线*难度控制，能够在生成时确定性地校准项目复杂性；以及 (ii) 基于 IRT 的计算机自适应测试（CAT），其中项目参数由自动化的 9 维认知评分提供信息，从而实现精确的能力定位和高效测试。
3. **识别推理失败与跨领域迁移**。我们实例化了 LogiHard-2k 并评估了*十二种*最先进模型，揭示了多选失败和组合推理差距（准确率下降 31%-56%），且无逻辑无效性。在 MMLU 上的零样本迁移证实了跨领域泛化能力（89.84% → 42.86%）。

## 2 相关工作

我们的工作建立并扩展了三条关键研究线索：硬化多项选择基准的系统方法、对抗数据污染和基准饱和，以及自适应评估范式。虽然现有方法解决了这些挑战的孤立方面，但 LogiHard 提供了一个统一框架，结合了*有效性保证的硬度合成*与*动态难度适应*。

### 2.1 基准硬化与表面扰动

识别和控制“硬度”是创建高难度基准的基础。Humanity's Last Exam (HLE)（phan2025lastexam, (https://arxiv.org/html/2605.07268#bib.bib2)）和 Arena-hard（li2024crowdsourced, (https://arxiv.org/html/2605.07268#bib.bib16)）等方法采用专家策划或 LLM-as-judge 评分，但仍需大量人力或依赖于裁判模型自身的能力。为了大规模增加难度，出现了各种扰动方法。简单的表面修改——洗牌、同义词替换、插入干扰项（gupta2024changing, (https://arxiv.org/html/2605.07268#bib.bib10); pezeshkpour2024large, (https://arxiv.org/html/2605.07268#bib.bib28); kostic2026same, (https://arxiv.org/html/2605.07268#bib.bib14); YIGIT2025100186, (https://arxiv.org/html/2605.07268#bib.bib42)）——增加了表面难度，但保持底层推理不变。“以上皆非”（NOTO）技术（salido2025none, (https://arxiv.org/html/2605.07268#bib.bib30)）通过要求验证所有干扰项来复杂化选择，但仍是一种*一阶*变换，并未提升逻辑阶数。

更系统的方法包括人工重写（MMLU-CF（zhao2024mmlucfcontaminationfreemultitasklanguage, (https://arxiv.org/html/2605.07268#bib.bib43)））、基于模板的符号扰动（GSM-Symbolic（gsm-symbolic, (https://arxiv.org/html/2605.07268#bib.bib23)））和多跳替换（BBEH（kazemi2025big, (https://arxiv.org/html/2605.07268#bib.bib13)））。虽然有效，但这些方法没有提供动态难度缩放的机制，并且容易受到表面模式利用的影响。

与这些方法不同，LogiHard 将硬度合成视为*确定性组合过程*，而非随机扰动。通过通过“构建即有效”协议将原子选项转换为命题复合体，我们在*算法上*实现了抗污染性，同时将推理从*0 阶选择*提升到*2 阶逻辑判断*——这是表面扰动无法实现的基本转变。这一区别对于 LRM 尤其显著：虽然扩展思维链和反思带来了强大的常规基准性能，但我们的实验表明，这些能力并不自动赋予对命题组合学的鲁棒性。

### 2.2 动态与自适应评估

除了静态硬化之外，动态评估策略创造了非平稳测试环境，以对抗数据污染并实现精确的能力测量。

#### 时间防火墙方法
一种主导策略是从训练截止期之后的来源构建非静态测试集。LiveBench（livebench, (https://arxiv.org/html/2605.07268#bib.bib38)）和 AntiLeakBench（wu-etal-2025-antileakbench, (https://arxiv.org/html/2605.07268#bib.bib39)）自动从最近的竞赛和更新的知识来源收集问题，建立时间隔离。OKBench（li2025okbenchdemocratizingllmevaluation, (https://arxiv.org/html/2605.07268#bib.bib17)）进一步自动化从每日新闻中按需生成，而 DyCodeEval（chen2025dynamic, (https://arxiv.org/html/2605.07268#bib.bib5)）生成语义多样的代码变体。虽然这些方法在对抗污染方面有效，但它们主要解决的是*数据新鲜度*而非*推理硬度*。它们缺乏一种原则性的机制，可以在不依赖数据来源的情况下动态控制逻辑复杂性。

#### 心理测量自适应测试
基于项目反应理论（IRT）（lord1980applications, (https://arxiv.org/html/2605.07268#bib.bib20)）的计算机自适应测试（CAT）为高效能力估计提供了严格的基础。Fluid Benchmarking（hofmann2025fluid, (https://arxiv.org/html/2605.07268#bib.bib12)）代表了 IRT 与 NLP 评估整合的最先进水平，通过最大化 Fisher 信息量，根据当前能力估计 $\hat{\theta}_t$ 动态选择最有信息量的项目 $i_{t+1}$：
$$ i_{t+1} = \arg\max_i I_i(\hat{\theta}_t) $$
然而，Fluid Benchmarking 优化的是从*固定*项目池中的选择；其有效性完全取决于现有问题的质量和难度范围。

LogiHard 统一了生成与适应。我们的 IRT-CAT 协议作用于由我们逻辑组合学定义的难度连续体，既能够实现精确测量，又能按需合成适当难度的项目。与受限于固定项目池的 Fluid Benchmarking 不同，LogiHard 可以通过控制命题复杂性动态生成目标难度级别的项目。这种*合成*与*选择*的整合，在保持测量精度的同时，显著减少了所需的题目数量。

## 3 LogiHard 框架

LogiHard 包含三个协同组件：一个*认知难度评分*模块，通过自动化分析模型思维轨迹来分层项目；一个*确定性组合协议*，通过命题逻辑合成逻辑上有效的题目；以及一个基于项目反应理论（IRT）和计算机自适应测试（CAT）的*动态评估协议*。我们在 LogiHard-2k 基准上实例化了这些组件，该基准构建于高利害人类考试之上。

### 3.1 形式化预备知识与组合协议

我们将原子多项选择题转换为组合逻辑任务的形式化过程描述如下。设 $\mathcal{L}$ 为由连接词 $\{\land, \lor, \neg\}$ 在可数命题变量集 $\mathcal{P}$ 上生成的命题语言。一个原子多项选择题是一个元组 $\mathcal{Q} = (\mathcal{C}, \mathcal{O}, a)$，其中 $\mathcal{C}$ 表示上下文，$\mathcal{O} = \{o_I, o_{II}, o_{III}, o_{IV}\}$ 表示恰好四个原子选项，$a \in \{I, II, III, IV\}$ 是*唯一*的真值索引，满足 $\mathcal{C} \models o_a$ 且 $\mathcal{C} \not\models o_j$ ...

从零阶选择到二阶判断：组合硬化暴露前沿大语言模型的组合性缺陷

相似文章

逻辑正则化验证器激发大语言模型的推理能力

大语言模型在最长简单链式推理任务上的表现如何：关于等价类问题的实证研究

揭示大语言模型中的数学推理：内部机制的方法学研究

学习如何让大语言模型进行推理

强化学习能否教会大型语言模型进行长程推理？表达力是关键

提交意见反馈