大型学习模型中增强且高效的推理
摘要
本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。
arXiv:2605.14036v1 公告类型:新
摘要:在目前的大语言模型中,我们可以根据机器学习原理信任其生成的流畅文本。然而,却没有可比的原则性基础来证明对生成文本内容的信任。普遍的观点认为,通过增加更多原则性推理来解决这个问题在计算上是不切实际的。
在这里,我们提出了一种原则性的推理方法,其效率足以在大语言模型中实际应用。此外,该方法允许保留目前使用的大部分软件和硬件基础。我们改进大语言模型功能的方法包括两个阶段:第一阶段是预处理,将数据重新编码为一种更显式地描述文本中对象之间关系的 Unary Relational Integracode;第二阶段是一个标准但可能精简的机器学习过程,该过程也会学习预测这些关系。
该方法可被视为实现了世界模型,并应用于自然语言之外的领域,例如视觉和动作,其中输入中提到的对象的多个属性被显式地整合在一起,而不是分散在输入中对它的各种引用中。我们从 Robust Logic 的角度阐述了其优势,Robust Logic 是一种对已学习(因此不确定)的信息进行原则性链式推理的系统。我们表明,这种重新编码具有令人惊讶且偶然的特性:虽然简洁,但它使得学习训练数据所描述世界中成立的关系规则的核心子集的任务在定义的意义上是多项式时间可学习的,多项式取决于规则的复杂程度。这为学习分类器每次调用内部以及多次调用之间的可靠推理提供了支持。
查看缓存全文
缓存时间: 2026/05/15 06:19
# 大型学习模型中增强且高效的推理能力 来源:https://arxiv.org/html/2605.14036 Leslie G. Valiant 哈佛大学约翰·A·保尔森工程与应用科学学院,波士顿,马萨诸塞州 02134 [email protected] (2026年5月12日) ###### 摘要 在当前的通用大型语言模型中,我们可以信任其生成流畅散文的能力,这基于机器学习原则的合理性。然而,却缺乏同等有原则的基础来证明我们对所生成文本内容的信任。广泛认知的“幻觉”现象只是这种情况的一种表现。传统观点认为,通过增加更有原则的推理来解决这一问题在计算上是不划算的。 在此,我们提出一种有原则的推理方法,其效率足以在大型语言模型中实际应用。此外,该方法允许保留目前广泛使用的软件和硬件基础的大部分内容。我们改进大型语言模型功能的方法包括两个阶段:第一阶段是预处理,对数据进行重新编码,使其更明确地揭示文本所述对象之间的关系;第二阶段是标准但可能经过精简的机器学习过程,该过程同样学习预测这些关系。本文讨论了一种特定的数据重编码方法:一元关系集成编码(Unary Relational Integracode)。 该方法可视为实现了一种世界模型,该模型不仅适用于自然语言,还可扩展到视觉和动作等领域。在输入中提及的某个对象的多个属性被显式地汇集在一起,而不是分散在输入中对该对象的各种引用里。我们从鲁棒逻辑(Robust Logic)的角度阐述了其优势,该逻辑系统用于对学习到的、因此具有不确定性的信息进行有原则的推理链操作。我们表明,我们的重编码方法具有一个令人惊讶且有利的特性:虽然它简洁,但它使学习训练数据所描述世界中存在的关联规则这一核心问题变为多项式时间可学习的,该多项式取决于规则的复杂度。这为在学习分类器的每次调用中进行可靠的推理提供了启发式支持。此外,该方法还为多次调用之间的推理提供了类似支持,这对于大型语言模型来说,无论是进行连续的下一词元预测还是采用更通用的推理方法都至关重要。我们的方法的每次调用都会输出显式的关联信息。因此,对于多次调用,该方法相比当前方法具有一些直接的优势,当前方法会在调用之间丢失可能已在调用内部收集到的任何关联信息。 ## 1 计算中的启发式方法 计算实践依赖于使用启发式算法来应对那些我们认为没有万能解决方案的情况。在编译器对程序的分析中,需要启发式方法,因为我们知道许多我们可能希望检测的属性(例如程序是否终止)是不可计算的。在组合优化中,例如解决整数规划问题时,使用启发式方法是因为当前普遍认为,由于这些问题属于NP完全问题,不存在能解决所有情况的高效算法。类似地,在机器学习中,当前也普遍认为并非所有数据源都是PAC可学习的。在过去几十年里,大量学习算法在大量共享数据集上被密集比较,以确定哪些算法作为针对各种数据源进行泛化的启发式方法最为有效。 在上述程序分析、组合优化和机器学习的所有案例中,启发式方法的使用都是有原则的,因为每种情况我们都能 (i) 精确定义我们希望完成的目标,以及 (ii) 有某种理由相信,无论是永久性地还是暂时地,我们无法在所有情况下实现这一愿望。 按照这些标准,为生成良好下一词元预测而开发的大型语言模型(LLMs)可以被认为是有原则的,因为它遵循了训练和测试的既定范式,无论是仅基于文本还是基于更多人类偏好示例,都是PAC学习意义上的 [26 (https://arxiv.org/html/2605.14036#bib.bib26)], [14 (https://arxiv.org/html/2605.14036#bib.bib14)], [20 (https://arxiv.org/html/2605.14036#bib.bib20)]。不幸的是,故事并未就此结束。首先,我们对LLMs的要求越来越多。我们期望它们的输出不仅形成可读且结构良好的段落,而且在世界上有意义。我们期望LLMs执行它们并未被直接训练过的任务。当然,对于任何非常具体的任务,只要付出足够的努力,我们可以组装一个合适的训练集。但这似乎一次只对一个任务有效,而任何数量的不同任务都可以被识别出来 [8 (https://arxiv.org/html/2605.14036#bib.bib8)]。 为了理解世界而进行的学习过程的一个更普遍的观点已被定义为“知识注入”(Knowledge Infusion)[28 (https://arxiv.org/html/2605.14036#bib.bib28)]。该定义特别要求,所学知识必须“以这样一种形式存在,使得对其进行的符合原则的推理能够在计算上可行”。当前的LLMs起源于聊天机器人范式 [36 (https://arxiv.org/html/2605.14036#bib.bib36)],但现在要求它们适应知识注入范式。本文指出,这两种范式可以比人们想象的更有效地调和,但对当前的LLMs进行一些改变是必要的。诚然,聊天机器人经常产生在世界中合理且与正确推理明显一致的输出,但它们的这种表现广泛被认为缺乏可靠性。我们的目标可能是构建功能上更可靠的系统,正如知识注入中所阐述的那样。 在这项努力中,除了功能性,我们还需要关注能耗。当前使用的Transformer [30 (https://arxiv.org/html/2605.14036#bib.bib30)] 消耗大量能量。目前尚不清楚它们对于所实现的功能来说是否高效。我们建议探索一个更广泛的重编码和架构空间,以同时提高功能性和能源效率。鉴于人类计划在AI上投入的资源规模,这种研究似乎是必要且及时的。 我们建议,为了使LLMs在推理、事实性和无幻觉方面更有效,同时尽可能节能,我们需要对以下基本问题有更精细的理解:为了促进文本中不同(可能相距甚远)部分之间的交互处理,我们应该做出哪些安排,以平衡功能性与成本? 当前部署的LLMs通常采用以文本输入为答案的Transformer架构来解决这个基本问题。这些模型使用注意力矩阵来提供一种通用机制,用于表达文本窗口中不同词元对之间的亲和度水平。在这里,我们提出了对基本问题的不同答案。其基本论点是,需要从文本中提取的交互信息,与在建模人类工作记忆的认知处理中被认为需要的实体间关系具有相同的普遍性质 [22 (https://arxiv.org/html/2605.14036#bib.bib22)], [21 (https://arxiv.org/html/2605.14036#bib.bib21)], [1 (https://arxiv.org/html/2605.14036#bib.bib1)]。鲁棒逻辑(Robust Logic)[27 (https://arxiv.org/html/2605.14036#bib.bib27)] 是一种强调可学习性的定量计算模型。其核心是“心灵之眼”(Mind’s Eye),类似于人类的注意力或工作记忆,其中一组项目及其关系被显式地表征出来。这种关系的例子包括连接主语和宾语的动词出现,例如“奥德修斯遇见佩涅洛普”,以及语境标志,例如,后续故事发生在“青铜时代”。 本提案描述了鲁棒逻辑的部分实现,它与当前LLM技术契合良好且易于增强。在该实现中,训练和推理的第一步都是使用语义分析器 [11 (https://arxiv.org/html/2605.14036#bib.bib11)], [13 (https://arxiv.org/html/2605.14036#bib.bib13)], [37 (https://arxiv.org/html/2605.14036#bib.bib37)], [23 (https://arxiv.org/html/2605.14036#bib.bib23)] 预处理文本以检测句子内部的关系,并使用话语分析器 [17 (https://arxiv.org/html/2605.14036#bib.bib17)] 检测句子之间的关系。结果将是 (i) 将词元集 V 适度扩大一个因子 g 得到 V′,其大小将为 ||V′|| = g||V||,以及 (ii) 将文本的每个词元与 h-1 个来自扩充词元集的额外词元关联起来,这些额外词元提供了关于该原始词元和其他原始词元所指对象之间关系的显式信息。换句话说,一个 N 词元的文本序列将被转换为一个 hN 词元的扩充词元序列。这些添加的词元有助于学习鲁棒逻辑规则,从而也有助于推理。 我们将这种为了增强机器学习中某些行为而对数据进行重编码以使其更完整的做法称为“集成编码机器学习”(Integracoded Machine Learning)。在当前实例中,被增强的行为是推理,同时保持可接受的能耗。该术语源自拉丁语 integra,意为“完整的”。 因此,论点是这样的:如果注意力的作用被缩小到本质,那么就可以构建在推理 [31 (https://arxiv.org/html/2605.14036#bib.bib31)]、事实性 [34 (https://arxiv.org/html/2605.14036#bib.bib34)] 和无幻觉 [12 (https://arxiv.org/html/2605.14036#bib.bib12)] 方面更可靠正确的系统。就事实性和无幻觉而言,我们扩充的词元集旨在比文本本身更显式地捕获文本中的关系信息。如果LLM中的幻觉和缺乏事实性是由于LLM在学习和推理过程中未能内化文本中隐含的所有关系,那么我们所建议的更显式的重编码可能会有所帮助。它旨在避免训练或测试时文本的内化仅仅是印象主义的。就推理而言,正确组合文本不同部分的含义,我们称之为“链式推理”(chaining)。鲁棒逻辑为对已学习且因此不确定的信息进行链式推理提供了有原则的基础。在鲁棒逻辑中,链式推理被证明是“可靠的”(sound),因为结论正确性的某些概率保证是由其组成部分的此类保证所继承而来的。例如,如果每个规则都已被学习到90%的准确率(由训练集样本统计支持),那么假设概率分布具有一定的稳定性,对于链式推理的结论,一些下限(例如80%)将是合理的。 我们将定义一种特定的集成编码方式,在该编码下,鲁棒逻辑规则的一个核心子集在定义的意义上是高效可学习的。鲁棒逻辑为我们希望实现的目标提供了一个广泛的规范。本文描述的集成编码系统的实现可以视为它的一个启发式实现。虽然我们这里强调的是语言输入,但该方法可以更广泛地应用,例如在机器人学中,输入可能描述视觉数据和物理动作(例如 [38 (https://arxiv.org/html/2605.14036#bib.bib38)], [40 (https://arxiv.org/html/2605.14036#bib.bib40)], [33 (https://arxiv.org/html/2605.14036#bib.bib33)])。 用于LLM的技术,特别是Transformer [30 (https://arxiv.org/html/2605.14036#bib.bib30)],是几十年来不同启发式学习算法在从大数据集进行泛化方面竞争的胜出者。毫不奇怪,它们擅长的是在有大型数据集提供统计支持时的泛化。在旨在捕捉更广泛人类认知能力的概念“可教育性”(educability)[29 (https://arxiv.org/html/2605.14036#bib.bib29)] 中,这种泛化只是三大支柱之一。另一个支柱是能够通过一次性指令进行学习。为此,重要的是该指令的文本能被充分理解,而不需要成千上万的其他类似指令来消除歧义。我们丰富的重编码必定有助于将通过此类指令获得的知识与先前从示例学习或通过指令获得的知识进行整合。可教育性的第三个支柱是已学习规则的链式推理。鲁棒逻辑就是为了使这一点有原则而专门设计的。关于链式推理如何与更广泛的推理概念相关联的更完整讨论,可以在 [29 (https://arxiv.org/html/2605.14036#bib.bib29)] 中找到。 ## 2 鲁棒逻辑 首先,我们通过示例描述LLM中的一个文本窗口如何在鲁棒逻辑中被表示为一个场景。假设文本涉及三个实体:Bob、Joe和Sue,并附加信息:Bob侮辱了Joe,Sue喜欢Joe,以及Sue向Bob复仇。这将在一个场景中用合取表示如下: Bob(x) & Joe(y) & Sue(z) & Insulted(x,y) & Likes(z,y) & Revenges(z,x)。 单词Bob、Joe、Sue、Insulted、Likes和Revenges来自一组固定的属性,对应于LLM术语中的词元。LLM将尝试学习在训练集文本所描述的场景中广泛成立的规则。 一个逻辑蕴含规则的例子是: ∀x∀z [∃y [Insulted(x,y) & Likes(z,y)] ⇒ Revenges(z,x)]。 这意味着如果存在某个y,使得x侮辱了y并且z喜欢y,那么z将向x复仇,无论x和z是谁。然而,PAC学习的语义并非这样的蕴含关系。相反,它是一种近似等价,其中正面和负面示例都必须以高概率被正确处理。因此,由鲁棒逻辑学习到的规则将是这种形式的近似等价: ∀x∀z [ { ∃y [DoesBadTo(x,y) & Likes(z,y)] } OR { ... } OR { ... } ≊ Revenges(z,x) ]。 这里,近似等价符号≊取代了标准逻辑中的⇒符号。重要的区别在于,现在左侧必须满足更苛刻的要求,即与右侧大致等价,而不仅仅是作为其一种情况(这对于蕴含就足够了)。这个示例从两个方面暗示,近似等价比蕴含需要更大的覆盖范围。首先,我们使用了更高级别的属性“DoesBadTo”而不是“Insulted”。其次,更根本的是,对于右侧“Revenges”的参数对(x,z),我们使用了多个标准的析取,而不仅仅是一个。(我们注意到,鲁棒逻辑仅要求这类近似等价规则中的左侧属于一个可学习的类别。对于本文,这种“OR”形式就足够考虑了。) 在鲁棒逻辑中,规则左侧每个括号对“{...}”内允许的表达式被限制在一组固定的模式(schemas)中。此类集合的一个例子是以下六种模式:(i) B(x), (ii) ∃y B(x,y), (iii) ∃y B(x,y) & C(y
相似文章
LEAD:用于大型语言模型的长度高效自适应与动态推理
LEAD通过使用正确性-效率权衡的在线校准和自适应的问题特定长度目标,在训练过程中动态调整推理效率,提高了数学推理的准确性并减少了输出长度。
大规模推理模型(尚)不是多语言潜在推理器
本文研究了大规模推理模型在11种语言上的多语言潜在推理能力,发现虽然存在潜在推理能力,但分布不均——在资源丰富的语言中较强,在低资源语言中较弱。研究发现,尽管表面存在差异,但内部推理机制在很大程度上与英语中心的路径保持一致。
大型语言模型中的推理源于受限推理流形
本文将大语言模型中的推理视为一种内在的动力学过程,发现推理时的表征会自组织成低维流形。文章提出了一种基于内部动力学的无标签诊断方法,以评估推理质量,表明有效的推理受到几何和信息约束的支配。
强化学习能否教会大型语言模型进行长程推理?表达力是关键
本文介绍了 ScaleLogic 框架,该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调,逻辑表达力对于提升下游迁移能力和训练效率至关重要。
通过推理空间压缩的结构化理由蒸馏
本文提出了 D-RPC,一种通过将推理路径压缩为可复用库,从而将大型语言模型的推理能力蒸馏给较小模型的方法,该方法在数学和常识基准测试中实现了更好的性能和一致性。