DALM:一种通过三阶段结构化生成的领域代数语言模型
摘要
DALM提出了一种领域代数语言模型,在由领域格导出的精确结构约束下生成文本,通过将知识组织到具有代数保证的独立领域纤维中来解决幻觉问题。该模型使用三阶段结构化去噪(领域→关系→概念),并使用领域标注的训练数据防止跨领域污染。
arXiv:2604.15593v1 公告类型:新
摘要:大型语言模型将异质知识压缩到单一参数空间中,导致不同领域的事实生成时相互干扰。我们提出DALM,一种领域代数语言模型,它将无约束的token生成替换为在领域格上的结构化去噪。DALM遵循三阶段生成路径:首先解决领域不确定性,然后关系不确定性,最后概念不确定性,因此每个阶段都在显式代数约束下运行。该框架只需要三个要素:一个具有可计算的交、并和蕴含的领域格;一个关系上的类型函数,控制跨领域的继承;一个将知识定位到领域特定子集的纤维划分。有了这些要素,DALM产生一个三阶段编码器-解码器架构,其中生成被限制在领域纤维内,跨领域污染在封闭词汇模式下被结构性地防止,在开放词汇模式下被可审计地限制,并且单个查询可以产生一个领域索引的多视角答案空间。我们使用CDC知识表示系统实例化该框架,并概述在验证过的领域标注晶体库上的训练和评估。DALM将语言生成重新定义为代数约束的结构化去噪,而不是在平坦token空间上的无约束解码。
查看缓存全文
缓存时间: 2026/04/20 08:28
# DALM:一种通过三阶段结构化生成的域代数语言模型
来源:https://arxiv.org/html/2604.15593
###### 摘要
大型语言模型将人类知识压缩成非结构化权重向量,其中不存在域边界——量子力学的事实和烹饪的事实共享相同的参数空间,并在生成过程中相互污染。我们提出一种域代数语言模型(DALM),该模型在源自域格的确切结构约束下进行生成。
DALM 与扩散语言模型 (dLLMs) 共享一个核心直觉:生成是从高熵到低熵的渐进式去噪。区别在于结构。现有的 dLLM(LLaDA、Dream、Zhou等人,2026)通过随机取消掩码 token 进行去噪——没有语义顺序,没有域约束,对去噪路径没有代数保证。DALM 沿着域格进行去噪:先解决域不确定性,然后解决关系不确定性,再解决概念不确定性。每一步去噪都受到代数约束。
该框架需要三个抽象要素:(1) 一个域格 (L, ⊑),具有可计算的交、并和蕴涵;(2) 一个类型函数 τ,将关系分类为单调或非单调,控制跨域边界上的继承;以及 (3) 一个纤维函数 F,将知识库划分为域局部子集。给定满足这些要求的任何系统,DALM 提供一种三阶段编码器-解码器架构,其中每个生成步骤都限制在域纤维内,跨域污染在封闭词汇模式下被结构性地禁止,在开放词汇模式下可审计地受限,并且单个查询会产生一个域索引的多视角答案空间。
该架构在域标注、一致性验证的结构化知识库上进行训练,其中每个训练样本都携带域标注、关系类型和验证保证——比原始文本结构更丰富的信号。我们使用 CDC(域上下文化概念图)知识表示作为具体实例来演示该框架,并指定了在医学领域晶体库上的评估协议。
关于阅读本文的一个说明。核心贡献是*沿着代数格进行受控的结构化去噪*,而不是马尔可夫扩散链的数学推导。DALM 不是一个在平坦 token 空间上操作的基于似然的生成模型;它是一个受约束的去噪系统,其计算空间由域代数塑造。通过表示对齐或最大似然分解的视角阅读它,将会产生在所制定的框架中并不存在的明显差距。
关键词:域代数语言模型,DALM,结构化去噪,域格,代数约束,扩散语言模型,幻觉预防
## 1. 引言
### 1.1. 压缩问题
所有大型语言模型都执行相同的基本操作:将人类知识语料库压缩成一个参数向量 θ ∈ ℝᵈ,然后通过从 p(xₜ₊₁ | x₁:ₜ; θ) 采样来生成文本。
这种压缩以一种特定且重要的方式是有损的。参数向量 θ 不保留原始知识的域结构。量子力学的事实和烹饪的事实共享相同的参数空间,在训练期间相互影响,并在生成过程中相互污染。θ 中没有任何结构机制能将“原子是量子场激发”与“原子是不可分割的粒子”分开——两者都散布在相同的权重矩阵中,只能通过其周围 token 的统计模式来区分。
这是幻觉的结构根源。当 LLM 生成关于量子力学的文本时,它会从以整个参数空间为条件的分布中采样,包括由经典物理学、化学、烹饪以及训练语料库中所有其他内容塑造的区域。跨域污染不是采样算法中的 bug——它是非结构化压缩的结构属性。
### 1.2. 结构化压缩作为一种替代方案
我们提出一个不同的压缩目标。不将知识压缩为非结构化向量 θ,而是压缩成域索引的结构化表示:
非结构化 (LLM):语料库 → θ ∈ ℝᵈ(一个向量,所有域混合)
结构化 (DALM):语料库 → {h_c(d), h_r(d), h_d} 对于所有 (c, r, d)(域索引嵌入)
DALM 的表示保留了域结构:概念嵌入按域索引,关系嵌入由 τ 类型化,域嵌入形成一个具有代数运算(交、并、蕴涵)的格。从这种表示生成天然受到域约束——不是通过事后过滤,而是通过表示空间本身的几何结构。
### 1.3. 结构化去噪:扩散语言模型本应是的模样
扩散语言模型(Zhou等人,2026;Nie等人,2025;Ye等人,2025)做出了一个重要的架构发现:生成可以被表述为渐进式去噪,而不是从左到右的自回归预测。一个完全掩码的序列被迭代地取消掩码,模型预测每一步要揭示哪些 token。
局限性在于去噪路径没有语义结构。Token i 可能在 token j 之前被取消掩码,这纯粹是出于统计原因——没有原则规定域级信息应在概念级信息之前解析,或者关系类型应约束哪些概念可以出现。一个医学 token 和一个体育 token 可以在同一步、相同的注意力上下文中被取消掩码,没有结构隔离。
去噪需要结构的独立物理证据。Sclocchi、Favero & Wyart (2025a) 在《PNAS》中证明,在分层结构数据上操作的扩散模型在临界噪声阈值 ε* 处表现出相变:低于 ε*,去噪过程保留高层特征(例如图像类别);高于 ε*,高层特征坍缩为随机,而低层特征持续存在并重新组合。他们的后续工作(Sclocchi 等人,2025b,ICLR 2025)进一步证明,前向-后向扩散实验可以探测数据的潜在分层结构,相关长度在相变处发散。
这是直接的实证证据——来自统计物理,而非知识表示——表明分层结构对去噪很重要。在 Wyart 团队的物理学语言中:高于 ε*,分层相关性解耦,系统实际上变成单尺度——用我们的表述来说,相当于将域格坍缩为一个单一通用纤维。Sclocchi 等人实验观察到的临界慢化和相关长度发散,在结构上正是代数约束无法再被去噪动态维持的点。Wyart 团队用物理工具在图像数据上观察到了这一点;我们通过域代数将其形式化,并通过将去噪计划锚定在格上而不是让其自由漂移,从架构上防止它。
DALM 是对这一物理观测的架构响应。DALM 不是允许层级结构在 ε* 处坍缩(这在非结构化扩散中会发生),而是通过域格在每个去噪步骤强制执行层级结构。三阶段去噪路径并非任意——它遵循格:
步骤 1(域去噪):解析输入/查询属于哪个域。这消除了最大的不确定性来源:我们在哪个世界里?
步骤 2(关系去噪):在每个激活的域内,解析哪些关系是激活的,受 τ 类型化约束。这消除了关系不确定性:这个世界有哪些规则适用?
步骤 3(概念去噪):在每个域-关系对内,从纤维局部词汇表生成特定概念。这消除了概念不确定性:在相应规则下,这个世界由哪些具体实体构成?
每一步的输出空间都受到上一步结果的约束。这是代数保证的去噪——不是一个可能在训练期间漂移的学习计划,而是源自域格的确切结构约束。
现有的 dLLM 基础设施——掩码机制、KV 缓存分区、并行解码——与 DALM 完全兼容。修改在于去噪计划:用格结构化的取消掩码替代随机取消掩码。这在架构上是掩码替换,而非框架替换。
### 1.4. 贡献
1. 一个通用的代数格结构化去噪框架,适用于任何提供格、类型函数和纤维划分的知识系统(第 2 节)。
2. 三阶段编码器-解码器架构,其中每个阶段对应格结构的一个层级(概念、关系、域),并受域代数约束(第 3-4 节)。
3. 将幻觉作为跨域泄漏的形式化分析,在封闭词汇中结构性预防,在开放词汇中可审计地限制(第 5 节)。
4. 多视角生成:单个查询产生一个域索引的答案空间(第 5 节)。
5. 优雅降级:部分成功产生有用的组件——自动结晶器、域结构化嵌入(第 5 节)。
6. 使用 CDC 框架的具体实例化(第 7 节),以及在医学领域知识库上的评估协议(第 8 节)。
## 2. 代数格上的结构化去噪
本节定义 DALM 的抽象代数要求。满足这些要求的任何知识表示系统都可以作为 DALM 的结构基础。定义是自包含的;第 7 节给出了具体实例化。
### 2.1. 三个要素
要素 1:域格 (L, ⊑)。一个具有特化顺序 ⊑ 的偏序域集,配备可计算的交 (⊓)、并 (⊔) 和蕴涵 (→) 运算。该格有一个顶元素 ⊤(通用域),并满足 Heyting 代数公理:它是分配、有界的,并支持伪补。具体地:@Physics@Quantum ⊑ @Physics ⊑ ⊤,两个域的交是它们最具体的共同泛化。蕴涵运算 d1 → d2 用于 τ 类型化机制:它决定从 d1 到 d2 的知识转移是否在结构上获得许可,并且是解码器第二阶段必须尊重的继承决策的基础。DALM 架构显式使用交和并(在域选择和格损失中),并隐式使用蕴涵(通过控制跨域继承的 τ 类型化掩码)。
要素 2:类型函数 τ: R → {monotone, non-monotone}。系统中每个关系谓词 r 被分类为单调(父域中的真值蕴涵子域中的真值)或非单调(真值不向下传播)。此分类控制继承:如果 is_a 是单调的,那么 @Physics 中的“Atom is_a Particle”继承到 @Physics@Quantum。如果 contrasts_with 是非单调的,那么 @Physics 中的“Wave contrasts_with Particle”**不**继承到 @Physics@Quantum,因为波粒二象性在那个层级消解了这种对比。
类型函数可以是全局的(τ 仅依赖于 r)或域条件的(τ 依赖于 r 和 d)。全局情况提供更强的代数保证;域条件情况更具表达力。两者都支持。当 τ 是域条件的,且关系 r 在 d1 处有 τ(r, d1) = monotone 但在 d2 处有 τ(r, d2) = non-monotone(对于 d1 ⊑ d2),则更严格的分类起主导作用:对于 d1 → d2 的继承路径,该关系被视为非单调,因为允许单调传播进入将其分类为非单调的子域会违反子域的约束。
要素 3:纤维函数 F: L → 2ᴷ。每个域 d ∈ L 定义一个纤维 F(d):限定于该域的知识单元的完整集合。不同纤维中的事实在语义上是独立的:is_a(Apple, Fruit, @Biology) 和 is_a(Apple, Company, @Business) 可以共存而不会矛盾,因为它们位于不同的纤维中。限定于域 d 的查询仅针对 F(d) 进行评估——其他纤维中的概念对该查询而言不存在。
### 2.2. 知识单元与验证
结构化知识的基本单元是一个元组 ⟪c, r@d, c'⟫,其中 c 和 c' 是概念,r 是关系谓词,@d 是域规格说明。@d 字段不是元数据——它是谓词元数的结构部分。任何将元组读取为四字段单元的系统都会自动尊重域范围。
一个**已验证的知识单元**(我们称之为**晶体**)是已通过其纤维 F(d) 的**插入时验证**的元组:新断言不会在无环关系中创建环,不会反转已建立的因果链,并且不会与同一纤维内的现有内容矛盾。晶体保证在纤维局部是一致的。
### 2.3. 结构化去噪路径
给定三个要素,结构化去噪路径定义为:
噪声 → 阶段 1:域 → 阶段 2:关系 → 阶段 3:概念 → 晶体
每个阶段消除一个不确定性维度,每个阶段的输出空间受到前一阶段结果的约束:
- 阶段 1(域):选择哪些域是相关的。输出:在 L 上的概率分布。
- 阶段 2(关系):在每个激活的域 d 内,选择哪些关系是激活的,受 τ 类型化约束。输出:每个域的一组类型化关系预测。
- 阶段 3(概念):在每个域-关系对内,从纤维局部词汇表 F(d) 生成特定概念。输出:完整的元组 ⟪c, r@d, c'⟫。
顺序不是任意的。域不确定性是最高层的不确定性(我们在哪个世界里?);概念不确定性是最低层的不确定性(哪个具体实体?)。按此顺序解析确保每一步都在一个逐渐更受约束的空间中操作。这反映了 Sclocchi 等人 (2025a) 观察到的层级相变结构:高层特征(域)必须在低层特征(概念)之前解析,去噪才能一致。
框架视角:去噪动力学,而非似然分解。一个有用的类比:DALM 的行为像一个受约束的动力系统,其去噪轨迹由域代数塑造,而不是一个必须显式对齐所有语义等价输出的基于似然的生成模型。在格 + τ 类型化 + 验证约束下,非法轨迹被结构性排除,合法轨迹被引导到输出空间的特定区域。表达式之间的语义等价预计表现为收敛到共享或相邻的晶体。相似文章
连续潜在扩散语言模型
Cola DLM 是一种分层潜在扩散语言模型,它通过文本到潜空间的映射以及条件解码,实现高效且非自回归的文本生成。
LLaDA2.0-Uni:用扩散大语言模型统一多模态理解与生成
LLaDA2.0-Uni 在单一扩散式大语言模型架构内统一了多模态理解与生成。
大语言模型中的语言习得装置
本文提出了一种受LAD启发的预预训练方法,使用一种名为MP-Struct的形式语言,该语言编码了类自然语言结构。研究表明,这种方法提高了token效率,并赋予了模型类似人类的对结构不合理语言的抵抗力,挑战了先前关于有效预预训练语言的假设。
Dystruct:基于贝叶斯推理的动态结构化扩散语言模型解码
DyStruct 是一种无需训练的贝叶斯解码框架,专为离散扩散语言模型设计。它通过动态确定扩展规模和解码顺序来实现灵活长度生成,从而提高了数学和代码任务的准确性。
用于三维框架系统自动化结构分析的智能体大语言模型
本文提出了一种基于自然语言输入的三维框架系统自动化结构分析的智能体大语言模型框架,通过多智能体流水线在十个代表性三维框架上实现了90%的准确率。