量子启发式轨迹增强证据选择:用于结构化假设空间推理
摘要
本文介绍了一种量子启发式方法EP-HUBO,它将链式思维推理中的证据选择视为组合优化问题,通过允许少数但正确的假设覆盖嘈杂的多数,在MMLU-Pro法律和LEXam等法律推理基准测试中显著提升了性能。
arXiv:2606.06941v1 公告类型: 新
摘要:大型语言模型(LLMs)现在能够解决广泛的专业级别考试,达到或超过人类水平,但在法律等专业化、证据密集型领域仍然脆弱。在这些任务中,错误不仅源于世界知识的空白,还源于证据之间的细微差别以及支持证据使用的不一致。对采样的链式思维(CoT)轨迹最常用的聚合器——多数投票,无论其证据是否实际最强,都返回最流行的答案。我们提出将CoT推理片段选择为一组证据视为明确的组合优化问题,允许有充分支持但属于少数的假设覆盖嘈杂的多数,并在特别敏感于证据质量的法律推理基准上评估该方法。我们引入了EP-HUBO(证据池高阶二进制优化),它使用一个小型本地模型生成多个CoT轨迹,将片段解析为每个假设的证据池,使用质量派生权重(相关性、特异性、区分性)对每个池求解高阶无约束二进制优化,并为每个问题委托一个前沿模型进行单一裁决调用。我们使用经典硬件上的模拟退火和Quantum Computing Inc.的Dirac-3光子熵量子机在两个证据密集型法律基准上评估EP-HUBO。HUBO风格的优化提供了一种原则性的方式来聚合推理片段,同时保留少数但正确的假设,并且在污染较低的领域(前沿模型尚未吸收基准材料)最具价值。
查看缓存全文
缓存时间: 2026/06/08 09:14
# 量子启发的痕迹增强证据选择用于结构化假设空间推理 来源:https://arxiv.org/html/2606.06941 Laura Wynter,Nirvik Sahoo,Paul Griffin 计算机与信息系统学院 新加坡管理大学 新加坡 ###### 摘要 大型语言模型 \(LLMs\) 现在能够以等于或超过人类水平解决广泛的专业级考试,但在法律等专业化、证据密集型领域仍然很脆弱。在这些任务上,错误不仅源于世界知识的空白,还源于证据片段之间的细微差别以及对支持证据的不一致使用。最常用的对采样的思维链 \(CoT\) 痕迹的聚合器——多数投票,返回最流行的答案,无论其证据是否最强。我们提出将 CoT 推理片段的选择视为一个明确的组合优化问题,允许得到充分支持但属于少数派的假设覆盖噪声多数派,并在对证据质量特别敏感的法律推理基准上评估该方法。我们引入 EP-HUBO(证据池高阶二元优化),该方法 \(i\) 使用小型本地模型生成多个 CoT 痕迹,\(ii\) 将片段解析为每个假设的证据池,\(iii\) 对每个池求解一个带有质量派生权重(相关性、特异性、区分性)的高阶无约束二元优化问题,\(iv\) 每个问题仅委托一次前沿模型进行裁决。我们在两个证据密集型法律基准(MMLU-Pro 法律和 LEXam)上评估 EP-HUBO,使用经典硬件上的模拟退火以及 Quantum Computing Inc. 的 Dirac-3 光子熵-量子机。EP-HUBO 在 MMLU-Pro 法律上比多数投票高出 +12.6 个百分点,在 LEXam 上使用强前沿裁决者时高出高达 +23.2 个百分点,并且在 MMLU-Pro 法律上比零样本前沿裁决高出 +1.5 个百分点,在 LEXam 上高出高达 +5.1 个百分点。在 LEXam 上,零样本 Claude Sonnet 4.6 表现出严重的位置偏差,在 87.7% 的问题上选择选项“E”;EP-HUBO 选择的证据减少了偏差,并在 HUBO 精度达到 92.0% 时比零样本 Sonnet 高出高达 +20.2 个百分点。Dirac-3 上的量子解决方案与经典模拟退火相当。HUBO 风格的优化提供了一种原则性的方式来聚合推理片段,同时保留少数但正确的假设,在基准材料尚未被前沿模型吸收的低污染领域最有价值。 ## 1 引言 大型语言模型 \(LLMs\) 现在能够以等于或超过人类水平解决广泛的专业级考试,但在法律等专业化、证据密集型领域仍然很脆弱。在这些任务上,错误不仅源于世界知识的空白,还源于证据片段之间的细微差别以及对支持证据的不一致使用。一种常见的方法是采样多个 LLM 响应并聚合答案。最常用的聚合器——多数投票\[2 (https://arxiv.org/html/2606.06941#bib.bib2)\],返回最频繁的答案,无论其证据是否最强。我们引入 EP-HUBO:证据池高阶二元优化,它将思维链 \(CoT\) 推理痕迹中的证据选择视为一个结构化的组合问题。与自一致性和多数投票方案不同,EP-HUBO 不奖励流行度:推理片段权重源自相关性、特异性和区分性,允许得到充分支持但属于少数派的假设覆盖噪声多数派。我们的方法涉及使用优化问题从结构化假设空间上的每个假设证据池中识别最强的 CoT 推理证据。EP-HUBO 是一种量子启发的公式,允许使用经典计算机或量子计算机解决优化问题。EP-HUBO 的特点是:\(i\) 本地开放权重的痕迹生成,\(ii\) 每个假设的证据池,\(iii\) 使用质量派生而非流行度派生权重的 HUBO,以及 \(iv\) 每个问题仅一次前沿模型裁决。该方法有四个阶段。首先,出于成本效率考虑,我们使用较小的本地模型为每个问题生成多个 CoT 痕迹。然后,同样使用较小的本地模型以及确定性规则,将痕迹中的片段解析为特定答案的证据池。这一步依赖于假设空间结构良好,以便可以将答案划分为一组离散的候选假设。第三,我们制定并求解一个高阶无约束二元优化 \(HUBO\) 问题;该优化问题用于选择一个强有力支持每个答案池的片段子集。最后,使用优化后的证据,单次调用更大的前沿模型对选项进行裁决。法律领域是 EP-HUBO 的绝佳应用领域。法律决策依赖于收集通常独立的证据片段来支持结论。与数学证明相反,证据不必遵循特定顺序。因此,它们可以来自多个不同的 CoT 推理痕迹。此外,如果推理痕迹缺少关键证据,法律推理可能会崩溃,这激励了生成多个 CoT 痕迹。因此,我们在两个具有挑战性的法律推理基准上评估 EP-HUBO:MMLU-Pro\[18 (https://arxiv.org/html/2606.06941#bib.bib18)\] 的法律子集和 LEXam 基准\[17 (https://arxiv.org/html/2606.06941#bib.bib17)\](包含瑞士和国际法问题)。我们在经典计算机和量子计算机上评估 EP-HUBO;在经典计算机上,我们通过模拟退火 \(SA\) 解决优化问题,并在 Quantum Computing Inc. \(QCi\)\[3 (https://arxiv.org/html/2606.06941#bib.bib3)\] 的 Dirac-3 光子熵量子机上求解量子公式。我们的结果表明,EP-HUBO 在两个基准上都显著优于多数投票。除了准确性之外,EP-HUBO 还揭示并减轻了裁决者的偏差。在 LEXam 上,其中一个前沿 LLM 表现出严重偏差,在 87.7% 的所有问题上选择了一个答案选项。然而,使用 HUBO 选择的证据减少了偏差,并在零样本 LLM 上获得了 +11.4 个百分点的提升。使用 Dirac-3 求解 HUBO 优化得出的结果与经典计算机上的模拟退火相当。因此,本文做出了以下贡献。 1. 1\. 我们的证据池 HUBO 框架。我们定义了带有证据池的痕迹增强问题公式,以及一个用于证据选择的高阶二元优化问题,该问题适用于经典计算机和量子计算机。 2. 2\. EP-HUBO 的理论分析。 3. 3\. 一项实证研究,使用经典计算机和光子量子计算机,在 MMLU-Pro 法律和 LEXam 瑞士及国际法基准上,使用两种开放权重的较小 LLM 痕迹生成器。 本文组织如下。第 2 节 (https://arxiv.org/html/2606.06941#S2) 讨论相关工作,包括自一致性、NLP 的组合优化、量子启发的 AI 以及基准污染。第 3 节 (https://arxiv.org/html/2606.06941#S3) 介绍我们的框架和算法。第 4 节 (https://arxiv.org/html/2606.06941#S4) 提供我们的理论分析。第 5 节 (https://arxiv.org/html/2606.06941#S5) 描述我们的实验设置并报告结果。第 6 节 (https://arxiv.org/html/2606.06941#S6) 呈现消融研究,隔离 EP-HUBO 方法组件的作用以及裁决者模型强度的影响。第 7 节 (https://arxiv.org/html/2606.06941#S7) 总结并讨论我们工作的意义和局限性。所有脚本和痕迹与本论文一同发布。 ## 2 相关工作 首先,我们讨论先前关于 CoT 推理痕迹以及其它组合和量子方法的工作。 #### 自一致性与多数投票 自一致性\[2 (https://arxiv.org/html/2606.06941#bib.bib2)\] 是一种方法,为单个任务生成 \(N\) 个独立的 CoT 痕迹。它通常与多数投票一起使用,后者选择最常见的最终答案。虽然它优于贪心解码,但受到多数信号的限制:如果正确答案在痕迹中属于少数,自一致性无法恢复它。最近 Feng 等人\[4 (https://arxiv.org/html/2606.06941#bib.bib4)\] 的理论分析表明,其准确性遵循样本数量的幂律;他们引入了一种自适应变体 \(Blend-ASC\),通过检测何时额外痕迹产出递减,以 6.8× 更少的样本实现相同的准确性。Kang 等人\[5 (https://arxiv.org/html/2606.06941#bib.bib5)\] 提出了 *self-certainty*,一种从模型自身输出分布导出的无需奖励模型的度量,支持在无需外部验证器的情况下进行样本高效的 best-of-\(N\) 选择。 #### 推理验证与生成式验证器。 除了自一致性,Yao 等人\[20 (https://arxiv.org/html/2606.06941#bib.bib20)\] 引入了思维树搜索部分解决方案;Saunders 等人\[21 (https://arxiv.org/html/2606.06941#bib.bib21)\] 表明语言模型可以微调以批评自己的中间步骤;Welleck 等人\[22 (https://arxiv.org/html/2606.06941#bib.bib22)\] 训练了一个单独的生成式验证器,其分数用于对候选答案重新排序。这些方法通过引入验证阶段改进了自一致性,但验证范围通常是*完整推理痕迹*,而不是其中的单个证据片段。可以将 EP-HUBO 视为将验证思想细化了一个层面:我们不是对完整痕迹进行排名,而是对片段进行评分和选择,并让前沿模型验证由此产生的证据集合。 #### NLP 解码中的组合结构。 束搜索本身就是一种离散优化:每一步都在对数概率目标下从候选集中选择。更结构化的组合解码至少从 Roth 和 Yih\[23 (https://arxiv.org/html/2606.06941#bib.bib23)\] 开始就被研究,他们将语义角色标注制定为整数线性规划,而 Riedel 和 Clarke\[24 (https://arxiv.org/html/2606.06941#bib.bib24)\] 使用 ILP 进行依存句法分析。现代变体使用 SAT 求解器进行约束生成\[25 (https://arxiv.org/html/2606.06941#bib.bib25)\] 或使用结构化预测目标的可微松弛\[26 (https://arxiv.org/html/2606.06941#bib.bib26)\]。EP-HUBO 延续了这一传统,将证据片段选择视为一个高阶伪布尔优化,其区别特征在于目标系数由学习模型产生而非手工设计。 #### 扩展测试时计算与强化学习推理 并行研究线通过扩展推理时计算来改进推理。DeepSeek-R1\[6 (https://arxiv.org/html/2606.06941#bib.bib6)\] 表明,无需监督思维链标注的强化学习会诱发新兴行为——自我反思、验证和策略适应——在 MMLU-Pro 上达到 84.0%。Yang 等人\[7 (https://arxiv.org/html/2606.06941#bib.bib7)\] 表明,朴素地延长 CoT 长度可能会*损害*某些问题类型的准确性,并提出了 *Thinking-Optimal Scaling* 策略,让模型为每个问题自行选择最少的推理长度。这些发现激励我们使用有界数量的结构化痕迹而非无界思维链。 #### 多 LLM 聚合与多智能体组合 Wang 等人\[8 (https://arxiv.org/html/2606.06941#bib.bib8)\] 提出了多智能体混合 \(MoA\),一种分层架构,其中每个智能体完善所有先前智能体的输出,在开放生成任务上相比单模型基线取得了显著提升。Li 等人\[9 (https://arxiv.org/html/2606.06941#bib.bib9)\] 的后续研究表明,*Self-MoA*——聚合来自单个最强模型的多个输出——在 AlpacaEval 2.0 上优于多样化的多模型混合,表明来自一个有能力模型的答案多样性比跨较弱模型的架构多样性更有价值。Ashiga 等人\[10 (https://arxiv.org/html/2606.06941#bib.bib10)\] 调查了 LLM 的七种集成范式(权重合并、混合专家、输出集成、路由、级联),发现当单个模型足够有能力时,带有投票的输出级集成与更复杂的融合策略具有竞争力。另一方面,EP-HUBO 聚合来自*单个模型*的多个痕迹的*证据片段*,然后将最终综合委托给更强的前沿模型。注意,EP-HUBO 可以很容易地扩展到从多个 LLM 的痕迹中进行选择。 #### 推理片段的组合优化 将推理片段选择视为组合优化问题的想法由 Esencan 等人\[11 (https://arxiv.org/html/2606.06941#bib.bib11)\] 引入,他们将在 LLM 生成的候选理由映射到二次 QUBO 问题上,以选择用于思维链提示的最优证据子集,并与多数投票进行基准比较。Zhang 等人\[12 (https://arxiv.org/html/2606.06941#bib.bib12)\] 将该范式扩展到端到端框架 \(LLM-QUBO\),其中 LLM 自动解析自然语言问题描述并生成 QUBO 公式,与混合量子-经典 Benders 分解集成。相对于 Esencan 等人的工作和 LLM-QUBO,我们的 EP-HUBO 是 \(i\) 每个假设的,\(ii\) 使用小型本地模型进行痕迹生成和评分,以及 \(iii\) 在法律领域进行了系统评估,因为它是最优选择和组合 CoT 推理痕迹的理想应用。 #### QCR-LLM QCR-LLM\[1 (https://arxiv.org/html/2606.06941#bib.bib1)\] 将公式从二次 QUBO 扩展到 HUBO,包含三阶交互,并将其应用于 LLM 推理痕迹。他们从每个问题的 \(N=20\) 个前沿模型 CoT 痕迹中提取原子推理片段,并将片段编码为二元变量 \(x_i \in \{0,1\}\)。HUBO 能量函数定义为:\(H(x) = \sum_i w_i x_i + \sum_{i<j} w_{ij} x_i x_j + \sum_{i<j<k} w_{ijk} x_i x_j x_k\)。权重 \(w_{\cdot}\) 根据片段在 \(N\) 个痕迹中的出现频率设置:\(w_i = z_i - \lambda / K\)(其中 \(z_i\) 是第 \(i\) 个片段被采样的次数),成对权重 \(w_{ij}\) 根据共同出现频率设置,\(w_i\) 和 \(w_{ij}\) 的符号相反以诱导多样性。选择的前沿模型是 GPT-4o 和 DeepSeek-R1。在数学基准(GSM8K、MATH-500)上,使用 HUBO 选择的推理片段进行一次性提示击败了多数投票,但在 MMLU-Pro 信息学上未能改善。与 QCR-LLM 相比,我们的工作 \(i\) 使用每个假设的证据池(而不是跨所有假设的公共池),\(ii\) 权重来自质量度量(相关性、特异性、区分性)而不是频率,\(iii\) 噪声片段在进入 HUBO 之前被明确过滤,\(iv\) HUBO 求解器包括古典模拟退火和光子量子计算机(Dirac-3),并且 \(v\) 我们在基准污染分析方面更加谨慎,选择法律领域,因为公共基准数据不太可能出现在前沿模型的训练语料中。 #### 量子启发的 AI 和组合优化 最近的工作\[13, 14, 15, 16\] 探索了量子硬件的组合优化与 LLM 的结合。这些工作主要聚焦于在量子硬件上求解 QUBO 以近似传统算法,例如,Batra 等人\[13\] 将单词嵌入编码为 QUBO 以解决文字类比问题;Doltsinis 等人\[14\] 使用 QUBO 公式进行文档摘要;Egger 等人\[15\] 使用量子退火器从选项集中选择以最小化 LLM 的困惑度。我们使用量子硬件来求解 HUBO 以选择 CoT 痕迹中的证据片段。 #### 基准污染 流行 LLM 的评估因基准污染而复杂化\[27, 28\]。我们处理该问题的方式是选择不太可能出现严重污染的法律领域。Sahoo 等人\[17\] 表明,前沿 LLM 在 LEXam 法律基准上的表现与发布前在测试集上的报告结果几乎相同,尽管模型权重已更新。同样,MMLU-Pro 法律子集起源于较早的 MMLU 基准,但包含更现代的法律概念,例如人工智能法律。然而,这些基准的测试集并非未公开;它们可能有某种程度的污染。我们依赖 EP-HUBO 在基准上表现良好作为其有效性的指标,同时承认污染可能存在。 ## 3 方法 我们首先定义问题并概述我们方法的四个阶段。然后我们制定 HUBO 问题并提供学习 HUBO 系数的算法。 #### 3.1 衡量标准 给定一个由证据池 \(E_\ell\) 和其规模 \(|E_\ell|\) 定义的假设池 \(\ell\),我们选择一个大小为 \(K\) 的片段子集。在测试时,我们计算 HUBO 精度 \(\mathrm{prec}_H = \frac{1}{L} \sum_{\ell=1}^L \mathbb{1}[\mathrm{opt}(E_\ell) \text{ 是正确的}]\),其中 \(\mathrm{opt}(E_\ell)\) 是池 \(\ell\) 的 HUBO 优化片段子集。给定一个前沿模型裁决者,我们报告最终准确率 \(\mathrm{acc}\)。我们还定义了条件 HUBO 精度 \(\mathrm{prec}_H^{[\mathrm{dis}]} = \frac{1}{L_{\mathrm{dis}}} \sum_{\ell: m_\ell \neq g_\ell} \mathbb{1}[ \mathrm{opt}(E_\ell) \text{ 是正确的}]\),其中 \(m_\ell\) 是多数投票选择的池,\(g_\ell\) 是由优化选择的池。类似地,\(\mathrm{prec}_H^{[\mathrm{agr}]}\) 表示两者一致时的精度。然后,\(\mathrm{prec}_H > 1/2\) 表明,在 HUBO 和 ZS 之间不一致的情况下,HUBO 更常正确。 ### 3.2 流程概述 EP-HUBO 按下面描述的四个阶段进行。见图 1 (https://arxiv.org/html/2606.06941#S3.F1)。 阶段 1 本地 LLM \(N=20\) 个 CoT 痕迹 阶段 2 本地 LLM HUBO 权重 阶段 3 SA 求解器 \(K\) 个片段 / 池 阶段 4 前沿 LLM 最终答案 证据池 基数保持 图 1:EP-HUBO 四阶段流程。阶段 1-3 本地运行(免费);阶段 1-2 调用本地 LLM,而阶段 3 使用 Python 代码。阶段 4 每个问题需要一次前沿 API 调用。绿色 = 本地;蓝色 = 前沿 LLM API。 #### 阶段 1:本地 LLM 痕迹生成 我们使用本地开放权重 LLM 进行推理痕迹生成。每个痕迹使用标准化模板提示,要求 3-5 个关键事实,后跟“最终答案:[标签]”。 #### 阶段 2:答案-证据池 痕迹按提取的答案分组。对于每个包含候选答案 \(\ell\) 的池,从原始文本字段中提取片段,并使用几个质量过滤器(例如,最少 10 个词;\(\geq 2\) 个大写实体词等)。这确保 HUBO 在假设特定的证据空间内运行:池 \(\ell\) 中的片段是由得出答案 \(\ell\) 的痕迹产生的。每个片段 \(f_i \in \text{pool}_{\ell}\)相似文章
面向LLM推理的统一数据选择
本文提出高熵总和(HES),这是一种无需训练的度量方法,用于为LLM训练选择高质量推理数据,并在SFT、RFT和RL等范式中得到验证。
提示引导的多样化策略优化用于LLM推理
本文介绍了提示引导的多样化策略优化(HDPO),这是一个两阶段强化学习框架,鼓励LLMs首先生成多个候选解决方案大纲(提示),然后选择最可靠的一个进行详细推理,从而提升推理的多样性和可靠性。
隐藏思维并非秘密:LLM中的推理痕迹暴露
本文介绍了推理暴露提示(REP)方法,该方法利用代码格式的阴影模型演示,从大语言模型中引出隐藏的推理痕迹,表明接口级别的痕迹隐藏不足以阻止提取有用的推理信号。
基于外部子图生成的大语言模型逐步推理增强
本文提出了SGR框架,通过查询相关的子图生成将外部知识图谱与大语言模型相结合,融合基于Cypher的推理与协同推理集成,从而增强大语言模型的逐步推理能力。在CWQ、WebQSP、GrailQA和KQA Pro上的实验表明,该框架相比标准提示方法和知识增强基线具有更高的推理准确性。
LLMs为何在结构化知识上产生幻觉:对线性化表示推理的机制分析
本文对LLMs在推理线性化结构化知识时产生幻觉的原因进行了机制分析,发现幻觉源于系统的内部动态,例如对捷径线索的关注以及前馈层中语义基础的失败,而非随机噪声。