CombEval: 评估大语言模型中组合计数能力的框架
摘要
CombEval 是一个动态基准测试,用于评估大语言模型中的组合计数能力,通过类型化规范生成带有求解器验证答案的问题。它在直接设置和代码增强设置下测试了11种大语言模型,并发现模型在处理有序对象、不可区分元素、相对约束和嵌套依赖时存在脆弱性。
查看缓存全文
缓存时间: 2026/06/20 14:33
# CombEval:评估大语言模型组合计数能力的框架 **来源:** https://arxiv.org/html/2606.19788 Yuxu Zhou¹, Ondřej Kuželka², Yuyi Wang³,⁴, Yuanhong Wang¹, Yi Chang¹,⁵,⁶¹¹footnotemark:1 ¹吉林大学人工智能学院,长春,中国 ²布拉格捷克理工大学,布拉格,捷克共和国 ³中车株洲研究所,株洲,中国 ⁴腾元智能研究院,中国 ⁵吉林大学未来科学国际合作中心 ⁶教育部知识驱动人机智能工程研究中心,中国 **通讯作者:** [email protected] (https://arxiv.org/html/2606.19788v1/mailto:[email protected]) ###### 摘要 我们提出 CombEval,一个用于评估大语言模型组合计数能力的动态基准。CombEval 将每个问题表示为关于实体、组合对象、对象依赖关系和约束的类型化 Cofola 规范,从而能够可控地生成自然语言计数问题,并附带经过求解器验证的精确答案。与静态数据集不同,CombEval 支持对象类型、实体规模、约束数量和推理深度的系统性变化。我们评估了 11 种大语言模型,在直接推理和代码增强两种设置下,发现模型在处理有序对象、不可区分元素、相对位置约束以及嵌套对象依赖关系时仍然表现脆弱。错误分析进一步揭示了在约束解释和计数原则方面的失败。CombEval 为研究大语言模型在组合推理中何时以及为何失败提供了一个诊断测试平台。代码和生成的基准测试套件已公开发布于 https://github.com/YuxuZhou-CN/combination-problem-generation。 CombEval:评估大语言模型组合计数能力的框架 Yuxu Zhou¹, Ondřej Kuželka², Yuyi Wang³,⁴, Yuanhong Wang¹††thanks:通讯作者., Yi Chang¹,⁵,⁶¹¹footnotemark:1 ¹吉林大学人工智能学院,长春,中国 ²布拉格捷克理工大学,布拉格,捷克共和国 ³中车株洲研究所,株洲,中国 ⁴腾元智能研究院,中国 ⁵吉林大学未来科学国际合作中心 ⁶教育部知识驱动人机智能工程研究中心,中国 **通讯作者:** [email protected] (https://arxiv.org/html/2606.19788v1/mailto:[email protected]) ## 1 引言 *组合计数*(*CO*)或*枚举*是数学的一个基础分支 [Stanley 2011 (https://arxiv.org/html/2606.19788#bib.bib25)],其最关键的功能之一是计算概率。对于大多数等可能事件,概率通过使用 CO 计算有利结果数和总可能结果数,然后取这两个值的比值来得出。CO 在金融、物流和医疗等关键领域也至关重要,它通过量化复杂需求下的可行选项,推动基于约束的决策优化。然而,其复杂性主要源于这些约束的错综复杂:它们往往是相互依赖、动态且多方面的,这使得开发能够适应各种现实场景的通用系统性解决方案变得极具挑战。这正是大语言模型(LLMs)作为解决 CO 问题有前景方法的原因所在。LLMs 在抽象推理和处理非结构化复杂约束方面的优势,使其能够在不依赖僵化、特定场景算法的情况下处理 CO 问题。LLMs 在自然语言处理 [Zhao et al. 2023 (https://arxiv.org/html/2606.19788#bib.bib1); Kalyan 2024 (https://arxiv.org/html/2606.19788#bib.bib2)]、代码生成 [Jiang et al. 2024 (https://arxiv.org/html/2606.19788#bib.bib3)] 和问答 [Kuang et al. 2025 (https://arxiv.org/html/2606.19788#bib.bib7)] 等任务中展现了卓越能力,其在数学推理基准上的出色表现尤其引人注目 [Xu et al. 2025 (https://arxiv.org/html/2606.19788#bib.bib4)]。当前主流模型 [OpenAI 2025 (https://arxiv.org/html/2606.19788#bib.bib74); Qwen Team 2025 (https://arxiv.org/html/2606.19788#bib.bib73); DeepSeek-AI 2025 (https://arxiv.org/html/2606.19788#bib.bib78)] 已在广泛使用的数学推理数据集(如 GSM8K [Cobbe et al. 2021 (https://arxiv.org/html/2606.19788#bib.bib8)] 和 MATH [Hendrycks et al. 2021 (https://arxiv.org/html/2606.19788#bib.bib27)])上达到甚至超过了人类平均准确率,这激发了人们探索 LLMs 解决更复杂数学问题和推理任务潜力的广泛兴趣 [Yang et al. 2025 (https://arxiv.org/html/2606.19788#bib.bib5)]。 目前用于评估 LLMs 组合计数能力的基准通常包含在更广泛的数学推理数据集中 [Hendrycks et al. 2021 (https://arxiv.org/html/2606.19788#bib.bib27); Zheng et al. 2021 (https://arxiv.org/html/2606.19788#bib.bib11); Veeraboina 2023 (https://arxiv.org/html/2606.19788#bib.bib9); Xu et al. (https://arxiv.org/html/2606.19788#bib.bib44); Xuejun et al. 2025 (https://arxiv.org/html/2606.19788#bib.bib12)]。例如,MATH 数据集 [Hendrycks et al. 2021 (https://arxiv.org/html/2606.19788#bib.bib27)] 包含 1245 个“计数与概率”类别的问题,覆盖了基本计数原理、排列组合和概率计算等主题。也有一些专门针对 CO 问题的有限基准,如 CombiBench [Liu et al. 2025 (https://arxiv.org/html/2606.19788#bib.bib14)],收集了 100 个从中学到国际数学奥林匹克级别的 CO 问题。尽管这些静态基准有助于初步评估 LLMs 的 CO 能力,但它们通常面临数学基准中普遍存在的*数据污染*和*虚假推理*问题。当测试问题或其变体出现在 LLMs 的训练数据中时,就会出现数据污染问题 [Ballocca et al. 2024 (https://arxiv.org/html/2606.19788#bib.bib29); Golchin and Surdeanu 2023 (https://arxiv.org/html/2606.19788#bib.bib30); Zhou et al. 2025 (https://arxiv.org/html/2606.19788#bib.bib32)]。这个问题使得模型可能通过记忆而非真正的推理取得高分,从而导致其真实推理能力被高估 [Deng et al. 2024 (https://arxiv.org/html/2606.19788#bib.bib6)]。另一方面,即使基准问题不直接存在于训练数据中,模型也可能利用浅层的文本模式来得出正确答案,而没有进行深入的逻辑推理 [Mirzadeh et al. 2024 (https://arxiv.org/html/2606.19788#bib.bib58); Lai et al. 2025 (https://arxiv.org/html/2606.19788#bib.bib59); Boye and Moell 2025 (https://arxiv.org/html/2606.19788#bib.bib60)]。在需要结构抽象的场景(如组合数学)中,模型可能记住“从 n 个中选 k 个”对应二项式系数这种表层关联,但当施加额外约束时,它们的推理能力会迅速崩溃 [Shrestha et al. 2025 (https://arxiv.org/html/2606.19788#bib.bib61)]。 参见图注 图 1:CombEval 生成框架概览,当前使用 Cofola 后端。生成器采样一个类型化对象 DAG P=⟨D,O,C⟩,附加兼容的约束,用模板将得到的正式规范转化为自然语言,并使用 Cofola 求解器验证精确答案。 因此,本文提出 CombEval,一个用于评估 LLMs 中 CO 能力的动态评估框架。CombEval 从类型化形式规范而非固定题库中综合生成 CO 实例,如图 1 (https://arxiv.org/html/2606.19788#S1.F1) 所示。这种构建方式使得在基准设计后能够采样全新问题,同时也能控制影响难度的结构变量。此外,由于每个实例都基于形式化程序并在评估前精确求解,该基准可以测试模型是否对底层结构进行推理,而不仅仅是匹配熟悉的表面模板。CombEval 的核心是 Cofola [Wang et al., 2026 (https://arxiv.org/html/2606.19788#bib.bib88)],一种用于组合计数的类型化声明式语言和求解器。遵循 Cofola,我们将问题表示为 ⟨D,O,C⟩,其中 D 是有限实体域,O 是在 D 上定义的一组类型化组合对象(例如集合、序列、划分),它们之间可能存在依赖关系,C 是作用于这些对象的一组约束。Cofola 提供了七种对象类型,包括集合、多重集、元组、序列、圆排列、划分和组合,以及成员关系、子集与不相交、多重性与基数、绝对元组位置、相对顺序模式以及分组级别条件等约束(见表 1 (https://arxiv.org/html/2606.19788#S3.T1) 和 2 (https://arxiv.org/html/2606.19788#S3.T2))。它的求解器将形式规范编译成加权一阶模型计数(WFOMC)实例,这些实例可以使用现成的 WFOMC 求解器高效求解 [van Bremen and Kuzelka 2021 (https://arxiv.org/html/2606.19788#bib.bib82); Kuzelka 2021 (https://arxiv.org/html/2606.19788#bib.bib83); Zou et al. 2025 (https://arxiv.org/html/2606.19788#bib.bib87)],从而能够对广泛的组合问题进行精确答案验证。 利用 CombEval,我们构建了多个经求解器验证的评估套件,并对 11 种主流通用型、数学专用型和推理专用型大语言模型进行了系统评估,包括开源模型(如 Qwen、DeepSeek、LLaMA 和 gpt-oss)和闭源模型(如 GPT-5 和 Gemini-3)。主要观察结果如下: - • 模型规模与高级推理技术在零样本和代码增强两种设置下均能提高整体准确率。然而,所有被评估的模型在处理需要不可区分元素、有序结构或多步依赖的类型化对象时,性能仍明显下降。 - • CombEval 支持细粒度难度控制。增加实体规模、约束数量或对象依赖深度会可预测地降低模型准确率,这表明生成的套件支持精细的模型比较,而不仅仅是单一的总体分数。 - • 表面模板变化会在一定程度上引起性能波动,尤其是对于能力较差(但仍较强)的模型。然而,最新的 gpt-5.5(最强模型之一)对这些变化表现出更强的鲁棒性,表明它们的推理能力并未与特定提示表述紧密耦合。 ## 2 相关工作 数学推理基准,如 GSM8K [Cobbe et al. 2021 (https://arxiv.org/html/2606.19788#bib.bib8)] 和 MATH [Hendrycks et al. 2021 (https://arxiv.org/html/2606.19788#bib.bib27)],为评估 LLMs 中包括组合计数在内的算术和代数能力奠定了基础,但它们也面临显著的局限性。首先,这些静态数据集极易受到数据污染的影响。随着预训练语料库的扩展,测试问题越来越多地被记忆而非求解,从而扭曲了评估结果 [Ballocca et al. 2024 (https://arxiv.org/html/2606.19788#bib.bib29); Golchin and Surdeanu 2023 (https://arxiv.org/html/2606.19788#bib.bib30); Zhou et al. 2025 (https://arxiv.org/html/2606.19788#bib.bib32)]。虽然研究人员尝试通过在其他推理领域进行动态生成来缓解这一问题 [Shi et al. 2022 (https://arxiv.org/html/2606.19788#bib.bib23); Saparov et al. 2023 (https://arxiv.org/html/2606.19788#bib.bib17); Wan et al. 2024 (https://arxiv.org/html/2606.19788#bib.bib18); Opedal et al. 2024 (https://arxiv.org/html/2606.19788#bib.bib31); Wang et al. 2025 (https://arxiv.org/html/2606.19788#bib.bib24); Ariyani et al. 2025 (https://arxiv.org/html/2606.19788#bib.bib16)],但专门为 CO 构建基准面临着独特的挑战。首先,CO 问题具有高度的结构和语义多样性,这使得设计一个统一框架来覆盖所有问题类型变得困难。其次,高效的解决方案通常需要专门的数学工具,如生成函数和容斥原理 [Stanley 2011 (https://arxiv.org/html/2606.19788#bib.bib25); Pak 2019 (https://arxiv.org/html/2606.19788#bib.bib22); Ferraris et al. 2015 (https://arxiv.org/html/2606.19788#bib.bib26)],这使自动答案验证的设计变得复杂。最后,由于许多 CO 问题超出了多项式时间复杂度 [Valiant 1979 (https://arxiv.org/html/2606.19788#bib.bib15)],生成和评估框架必须精心设计,以确保可扩展性而不必求助于暴力枚举。因此,基于求解器的基准生成不仅依赖于自然语言模板,还依赖于形式后端的表达能力和可靠性。 现有多种自动求解 CO 问题的方法,从约束满足编程(CSP)[Akgün et al. 2022 (https://arxiv.org/html/2606.19788#bib.bib76)]、答案集编程(ASP)[Gebser et al. 2022 (https://arxiv.org/html/2606.19788#bib.bib72)],到提升推理技术 [Van Den Broeck et al. 2011 (https://arxiv.org/html/2606.19788#bib.bib70); Taghipour et al. 2012 (https://arxiv.org/html/2606.19788#bib.bib79); Kuzelka 2021 (https://arxiv.org/html/2606.19788#bib.bib83)]。我们在附录 B (https://arxiv.org/html/2606.19788#A2) 中简要概述了这些方法。最近,Totis et al. (2023) (https://arxiv.org/html/2606.19788#bib.bib19) 提出了 CoLa/CoSo,一个用于建模和求解 CO 问题的提升框架。CoLa/CoSo 提供了一种重要的组合计数提升方法,但它专注于更受限的单配置语言,即每个问题只能定义和求解一个组合对象。CombEval 中使用的更新版 Cofola 语言和求解器 [Wang et al., 2026 (https://arxiv.org/html/2606.19788#bib.bib88)] 通过类型化对象依赖、集合与多重集、有序对象、分组对象以及基于 WFOMC 的求解,扩展了这一路线。这一更广泛的形式层使得 CombEval 能够生成更大、结构更多样的套件,同时保持精确的答案验证。 ## 3 组合计数问题的形式化 CombEval 遵循更新后的 Cofola 语义,将每个 CO 问题形式化为三元组 P=⟨D,O,C⟩。这里 D 是有限的实体域,O 是在 D 上定义的一组类型化组合对象,C 是作用于这些对象上的一组约束。答案是有效组合结构的数量,即对 O 中每个对象的具体实例赋值,这些赋值满足对象依赖关系并遵守 C 中的所有约束。下面我们通过以下实例引入各组成部分。 ###### 实例 1 我书架上有七本书。其中两本是数学书,一本是物理书。如果我必须选出 5 本书并排列它们,且满足以下条件:1) 两本数学书和一本物理书必须包含在内,2) 数学书必须相邻,3) 数学书都必须在物理书的左侧,那么有多少种选法和排法? ##### 实体域 实体域 D 包含可能出现在计数中的原子对象。在实例 1 (https://arxiv.org/html/2606.19788#Thmexample1) 中,D 包含七本书实体,包括两本数学书 M₁, M₂,一本物理书 P,以及四本其他书 O₁, …, O₄。实体可能是可区分的,例如 o
相似文章
OpenCompass:大语言模型通用评测平台
OpenCompass是一个一站式、可扩展、高并发的大语言模型评测平台,支持多种基准测试和模块化设计,旨在统一和标准化LLM评估。
ComBench:一个用于奥林匹克级组合数学严谨证明推理与构造实现的基准
ComBench 是一个奥林匹克级组合数学基准测试,包含100道题目,旨在评估大语言模型的严谨证明推理与构造实现能力。结果表明,像GPT-5.5这样的前沿模型仅达到65.4%的总体平均分,并且这两种能力是截然不同的。
从基准测试到推理能力:大语言模型在越南法律文本上的双维度大规模评估
为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架,结合了定量基准测试(准确性、可读性、一致性)和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。
EnvSimBench:用于评估和改善基于大语言模型的环境模拟的基准
本文介绍了 EnvSimBench,这是一个用于评估大语言模型在智能体训练中模拟环境能力的基准。它指出了当前大语言模型中存在的“状态变化悬崖”问题,并提出了一种约束驱动的流水线以减少幻觉和降低成本。
WebCompass:面向代码语言模型的多模态网页编程评估
# 论文页面 - WebCompass:面向代码语言模型的多模态网页编程评估 来源:[https://huggingface.co/papers/2604.18224](https://huggingface.co/papers/2604.18224) 作者:, , , , , , , , , , , , , , , , , ## 摘要 WebCompass 通过多样化的输入模态和任务类型评估网页开发能力,采用模拟真实世界编码工作流的自动化评估方法。[大语言模型](https://huggingface.co/papers?q=Large%20language%20model