DALM：一种通过三阶段结构化生成的领域代数语言模型

arXiv cs.CL 2026/04/20 04:00 论文

domain-algebraic structured-generation diffusion-language-models hallucination-prevention knowledge-representation lattice-constraints

摘要

DALM提出了一种领域代数语言模型，在由领域格导出的精确结构约束下生成文本，通过将知识组织到具有代数保证的独立领域纤维中来解决幻觉问题。该模型使用三阶段结构化去噪（领域→关系→概念），并使用领域标注的训练数据防止跨领域污染。

arXiv:2604.15593v1 公告类型：新摘要：大型语言模型将异质知识压缩到单一参数空间中，导致不同领域的事实生成时相互干扰。我们提出DALM，一种领域代数语言模型，它将无约束的token生成替换为在领域格上的结构化去噪。DALM遵循三阶段生成路径：首先解决领域不确定性，然后关系不确定性，最后概念不确定性，因此每个阶段都在显式代数约束下运行。该框架只需要三个要素：一个具有可计算的交、并和蕴含的领域格；一个关系上的类型函数，控制跨领域的继承；一个将知识定位到领域特定子集的纤维划分。有了这些要素，DALM产生一个三阶段编码器-解码器架构，其中生成被限制在领域纤维内，跨领域污染在封闭词汇模式下被结构性地防止，在开放词汇模式下被可审计地限制，并且单个查询可以产生一个领域索引的多视角答案空间。我们使用CDC知识表示系统实例化该框架，并概述在验证过的领域标注晶体库上的训练和评估。DALM将语言生成重新定义为代数约束的结构化去噪，而不是在平坦token空间上的无约束解码。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:28

# DALM：一种通过三阶段结构化生成的域代数语言模型
来源：https://arxiv.org/html/2604.15593

###### 摘要

大型语言模型将人类知识压缩成非结构化权重向量，其中不存在域边界——量子力学的事实和烹饪的事实共享相同的参数空间，并在生成过程中相互污染。我们提出一种域代数语言模型（DALM），该模型在源自域格的确切结构约束下进行生成。

DALM 与扩散语言模型 (dLLMs) 共享一个核心直觉：生成是从高熵到低熵的渐进式去噪。区别在于结构。现有的 dLLM（LLaDA、Dream、Zhou等人，2026）通过随机取消掩码 token 进行去噪——没有语义顺序，没有域约束，对去噪路径没有代数保证。DALM 沿着域格进行去噪：先解决域不确定性，然后解决关系不确定性，再解决概念不确定性。每一步去噪都受到代数约束。

该框架需要三个抽象要素：(1) 一个域格 (L, ⊑)，具有可计算的交、并和蕴涵；(2) 一个类型函数 τ，将关系分类为单调或非单调，控制跨域边界上的继承；以及 (3) 一个纤维函数 F，将知识库划分为域局部子集。给定满足这些要求的任何系统，DALM 提供一种三阶段编码器-解码器架构，其中每个生成步骤都限制在域纤维内，跨域污染在封闭词汇模式下被结构性地禁止，在开放词汇模式下可审计地受限，并且单个查询会产生一个域索引的多视角答案空间。

该架构在域标注、一致性验证的结构化知识库上进行训练，其中每个训练样本都携带域标注、关系类型和验证保证——比原始文本结构更丰富的信号。我们使用 CDC（域上下文化概念图）知识表示作为具体实例来演示该框架，并指定了在医学领域晶体库上的评估协议。

关于阅读本文的一个说明。核心贡献是*沿着代数格进行受控的结构化去噪*，而不是马尔可夫扩散链的数学推导。DALM 不是一个在平坦 token 空间上操作的基于似然的生成模型；它是一个受约束的去噪系统，其计算空间由域代数塑造。通过表示对齐或最大似然分解的视角阅读它，将会产生在所制定的框架中并不存在的明显差距。

关键词：域代数语言模型，DALM，结构化去噪，域格，代数约束，扩散语言模型，幻觉预防

## 1. 引言

### 1.1. 压缩问题

所有大型语言模型都执行相同的基本操作：将人类知识语料库压缩成一个参数向量 θ ∈ ℝᵈ，然后通过从 p(xₜ₊₁ | x₁:ₜ; θ) 采样来生成文本。

这种压缩以一种特定且重要的方式是有损的。参数向量 θ 不保留原始知识的域结构。量子力学的事实和烹饪的事实共享相同的参数空间，在训练期间相互影响，并在生成过程中相互污染。θ 中没有任何结构机制能将“原子是量子场激发”与“原子是不可分割的粒子”分开——两者都散布在相同的权重矩阵中，只能通过其周围 token 的统计模式来区分。

这是幻觉的结构根源。当 LLM 生成关于量子力学的文本时，它会从以整个参数空间为条件的分布中采样，包括由经典物理学、化学、烹饪以及训练语料库中所有其他内容塑造的区域。跨域污染不是采样算法中的 bug——它是非结构化压缩的结构属性。

### 1.2. 结构化压缩作为一种替代方案

我们提出一个不同的压缩目标。不将知识压缩为非结构化向量 θ，而是压缩成域索引的结构化表示：

非结构化 (LLM)：语料库 → θ ∈ ℝᵈ（一个向量，所有域混合）

结构化 (DALM)：语料库 → {h_c(d), h_r(d), h_d} 对于所有 (c, r, d)（域索引嵌入）

DALM 的表示保留了域结构：概念嵌入按域索引，关系嵌入由 τ 类型化，域嵌入形成一个具有代数运算（交、并、蕴涵）的格。从这种表示生成天然受到域约束——不是通过事后过滤，而是通过表示空间本身的几何结构。

### 1.3. 结构化去噪：扩散语言模型本应是的模样

扩散语言模型（Zhou等人，2026；Nie等人，2025；Ye等人，2025）做出了一个重要的架构发现：生成可以被表述为渐进式去噪，而不是从左到右的自回归预测。一个完全掩码的序列被迭代地取消掩码，模型预测每一步要揭示哪些 token。

局限性在于去噪路径没有语义结构。Token i 可能在 token j 之前被取消掩码，这纯粹是出于统计原因——没有原则规定域级信息应在概念级信息之前解析，或者关系类型应约束哪些概念可以出现。一个医学 token 和一个体育 token 可以在同一步、相同的注意力上下文中被取消掩码，没有结构隔离。

去噪需要结构的独立物理证据。Sclocchi、Favero & Wyart (2025a) 在《PNAS》中证明，在分层结构数据上操作的扩散模型在临界噪声阈值 ε* 处表现出相变：低于 ε*，去噪过程保留高层特征（例如图像类别）；高于 ε*，高层特征坍缩为随机，而低层特征持续存在并重新组合。他们的后续工作（Sclocchi 等人，2025b，ICLR 2025）进一步证明，前向-后向扩散实验可以探测数据的潜在分层结构，相关长度在相变处发散。

这是直接的实证证据——来自统计物理，而非知识表示——表明分层结构对去噪很重要。在 Wyart 团队的物理学语言中：高于 ε*，分层相关性解耦，系统实际上变成单尺度——用我们的表述来说，相当于将域格坍缩为一个单一通用纤维。Sclocchi 等人实验观察到的临界慢化和相关长度发散，在结构上正是代数约束无法再被去噪动态维持的点。Wyart 团队用物理工具在图像数据上观察到了这一点；我们通过域代数将其形式化，并通过将去噪计划锚定在格上而不是让其自由漂移，从架构上防止它。

DALM 是对这一物理观测的架构响应。DALM 不是允许层级结构在 ε* 处坍缩（这在非结构化扩散中会发生），而是通过域格在每个去噪步骤强制执行层级结构。三阶段去噪路径并非任意——它遵循格：

步骤 1（域去噪）：解析输入/查询属于哪个域。这消除了最大的不确定性来源：我们在哪个世界里？

步骤 2（关系去噪）：在每个激活的域内，解析哪些关系是激活的，受 τ 类型化约束。这消除了关系不确定性：这个世界有哪些规则适用？

步骤 3（概念去噪）：在每个域-关系对内，从纤维局部词汇表生成特定概念。这消除了概念不确定性：在相应规则下，这个世界由哪些具体实体构成？

每一步的输出空间都受到上一步结果的约束。这是代数保证的去噪——不是一个可能在训练期间漂移的学习计划，而是源自域格的确切结构约束。

现有的 dLLM 基础设施——掩码机制、KV 缓存分区、并行解码——与 DALM 完全兼容。修改在于去噪计划：用格结构化的取消掩码替代随机取消掩码。这在架构上是掩码替换，而非框架替换。

### 1.4. 贡献

1. 一个通用的代数格结构化去噪框架，适用于任何提供格、类型函数和纤维划分的知识系统（第 2 节）。
2. 三阶段编码器-解码器架构，其中每个阶段对应格结构的一个层级（概念、关系、域），并受域代数约束（第 3-4 节）。
3. 将幻觉作为跨域泄漏的形式化分析，在封闭词汇中结构性预防，在开放词汇中可审计地限制（第 5 节）。
4. 多视角生成：单个查询产生一个域索引的答案空间（第 5 节）。
5. 优雅降级：部分成功产生有用的组件——自动结晶器、域结构化嵌入（第 5 节）。
6. 使用 CDC 框架的具体实例化（第 7 节），以及在医学领域知识库上的评估协议（第 8 节）。

## 2. 代数格上的结构化去噪

本节定义 DALM 的抽象代数要求。满足这些要求的任何知识表示系统都可以作为 DALM 的结构基础。定义是自包含的；第 7 节给出了具体实例化。

### 2.1. 三个要素

要素 1：域格 (L, ⊑)。一个具有特化顺序 ⊑ 的偏序域集，配备可计算的交 (⊓)、并 (⊔) 和蕴涵 (→) 运算。该格有一个顶元素 ⊤（通用域），并满足 Heyting 代数公理：它是分配、有界的，并支持伪补。具体地：@Physics@Quantum ⊑ @Physics ⊑ ⊤，两个域的交是它们最具体的共同泛化。蕴涵运算 d1 → d2 用于 τ 类型化机制：它决定从 d1 到 d2 的知识转移是否在结构上获得许可，并且是解码器第二阶段必须尊重的继承决策的基础。DALM 架构显式使用交和并（在域选择和格损失中），并隐式使用蕴涵（通过控制跨域继承的 τ 类型化掩码）。

要素 2：类型函数 τ: R → {monotone, non-monotone}。系统中每个关系谓词 r 被分类为单调（父域中的真值蕴涵子域中的真值）或非单调（真值不向下传播）。此分类控制继承：如果 is_a 是单调的，那么 @Physics 中的“Atom is_a Particle”继承到 @Physics@Quantum。如果 contrasts_with 是非单调的，那么 @Physics 中的“Wave contrasts_with Particle”**不**继承到 @Physics@Quantum，因为波粒二象性在那个层级消解了这种对比。

类型函数可以是全局的（τ 仅依赖于 r）或域条件的（τ 依赖于 r 和 d）。全局情况提供更强的代数保证；域条件情况更具表达力。两者都支持。当 τ 是域条件的，且关系 r 在 d1 处有 τ(r, d1) = monotone 但在 d2 处有 τ(r, d2) = non-monotone（对于 d1 ⊑ d2），则更严格的分类起主导作用：对于 d1 → d2 的继承路径，该关系被视为非单调，因为允许单调传播进入将其分类为非单调的子域会违反子域的约束。

要素 3：纤维函数 F: L → 2ᴷ。每个域 d ∈ L 定义一个纤维 F(d)：限定于该域的知识单元的完整集合。不同纤维中的事实在语义上是独立的：is_a(Apple, Fruit, @Biology) 和 is_a(Apple, Company, @Business) 可以共存而不会矛盾，因为它们位于不同的纤维中。限定于域 d 的查询仅针对 F(d) 进行评估——其他纤维中的概念对该查询而言不存在。

### 2.2. 知识单元与验证

结构化知识的基本单元是一个元组 ⟪c, r@d, c'⟫，其中 c 和 c' 是概念，r 是关系谓词，@d 是域规格说明。@d 字段不是元数据——它是谓词元数的结构部分。任何将元组读取为四字段单元的系统都会自动尊重域范围。

一个**已验证的知识单元**（我们称之为**晶体**）是已通过其纤维 F(d) 的**插入时验证**的元组：新断言不会在无环关系中创建环，不会反转已建立的因果链，并且不会与同一纤维内的现有内容矛盾。晶体保证在纤维局部是一致的。

### 2.3. 结构化去噪路径

给定三个要素，结构化去噪路径定义为：

噪声 → 阶段 1：域 → 阶段 2：关系 → 阶段 3：概念 → 晶体

每个阶段消除一个不确定性维度，每个阶段的输出空间受到前一阶段结果的约束：

- 阶段 1（域）：选择哪些域是相关的。输出：在 L 上的概率分布。
- 阶段 2（关系）：在每个激活的域 d 内，选择哪些关系是激活的，受 τ 类型化约束。输出：每个域的一组类型化关系预测。
- 阶段 3（概念）：在每个域-关系对内，从纤维局部词汇表 F(d) 生成特定概念。输出：完整的元组 ⟪c, r@d, c'⟫。

顺序不是任意的。域不确定性是最高层的不确定性（我们在哪个世界里？）；概念不确定性是最低层的不确定性（哪个具体实体？）。按此顺序解析确保每一步都在一个逐渐更受约束的空间中操作。这反映了 Sclocchi 等人 (2025a) 观察到的层级相变结构：高层特征（域）必须在低层特征（概念）之前解析，去噪才能一致。

框架视角：去噪动力学，而非似然分解。一个有用的类比：DALM 的行为像一个受约束的动力系统，其去噪轨迹由域代数塑造，而不是一个必须显式对齐所有语义等价输出的基于似然的生成模型。在格 + τ 类型化 + 验证约束下，非法轨迹被结构性排除，合法轨迹被引导到输出空间的特定区域。表达式之间的语义等价预计表现为收敛到共享或相邻的晶体。

DALM：一种通过三阶段结构化生成的领域代数语言模型

相似文章

连续潜在扩散语言模型

LLaDA2.0-Uni：用扩散大语言模型统一多模态理解与生成

大语言模型中的语言习得装置

Dystruct：基于贝叶斯推理的动态结构化扩散语言模型解码

用于三维框架系统自动化结构分析的智能体大语言模型

提交意见反馈