ZAYA1-8B 技术报告

arXiv cs.AI 2026/05/08 04:00 论文

摘要

本报告介绍了 ZAYA1-8B，这是一款在 AMD 硬件上训练的混合专家推理模型，使用少于 10 亿的激活参数在数学和编程基准测试中取得了具有竞争力的性能。报告还详细介绍了马尔可夫式 RSA（Markovian RSA），这是一种用于聚合并行推理轨迹的新型测试时计算（test-time compute）方法。

arXiv:2605.05365v1 公告类型：新增摘要：我们推出了 ZAYA1-8B，这是一个专注于推理的混合专家（MoE）模型，拥有 80 亿总参数和 7 亿激活参数，基于 Zyphra 的 MoE++ 架构构建。ZAYA1-8B 的核心预训练、中期训练以及监督微调（SFT）均在完整的 AMD 计算、网络和软件平台上完成。凭借少于 10 亿的激活参数，ZAYA1-8B 在多项高难度的数学和编程基准测试中达到或超过了 DeepSeek-R1-0528 的表现，并与规模大得多的开源权重推理模型保持竞争力。ZAYA1-8B 从零开始训练以专注于推理能力，从预训练阶段起便通过答案保留修剪方案引入推理数据。后训练阶段采用四阶段强化学习（RL）级联：首先在数学和谜题上进行推理热身；随后执行包含 400 个任务的 RLVE-Gym 课程；接着进行结合测试时计算轨迹和基于竞赛编程参考构建的合成代码环境的数学与代码强化学习；最后针对聊天和指令遵循进行行为强化学习。此外，我们提出了马尔可夫式 RSA，这是一种测试时计算方法，能够在递归地聚合并行推理轨迹的同时，仅在轮次之间传递有限长度的推理尾部。在测试时计算评估中，马尔可夫式 RSA 将 ZAYA1-8B 在 AIME'25 上的得分提升至 91.9%，在 HMMT'25 上的得分提升至 89.6%，且仅传递 4K token 的尾部，缩小了与包括 Gemini-2.5 Pro、DeepSeek-V3.2 和 GPT-5-High 在内的更大规模推理模型的差距。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:08

# ZAYA1-8B 技术报告
来源: https://arxiv.org/html/2605.05365

Robert Washbourne\*, Rishi Iyer, Tomas Figliolia, Henry Zheng, Ryan Lorig-Roach, Sungyeon Yang, Pritish Yuvraj, Quentin Anthony, Yury Tokpanov, Xiao Yang, Ganesh Nanduru, Stephen Ebert, Praneeth Medepalli, Skyler Szot, Srivatsan Rajagopal, Alex Ong, Bhavana Mehta, Beren Millidge\*

Zyphra
San Francisco, CA

###### 摘要

我们提出 ZAYA1-8B，这是一个专注于推理的混合专家（MoE）模型，拥有 7 亿活跃参数和 80 亿总参数，构建于 Zyphra 的 MoE++ 架构之上。ZAYA1-8B 的核心预训练、中期训练和监督微调（SFT）均在 AMD 的全栈计算、网络和软件平台上完成。凭借不足 10 亿的活跃参数，ZAYA1-8B 在多项具有挑战性的数学和代码基准测试中匹配或超越了 DeepSeek-R1-0528，并且与体量显著更大的开源权重推理模型保持竞争力。ZAYA1-8B 从零开始针对推理进行训练，从预训练阶段起便包含推理数据，并采用了一种保留答案的修剪方案。后训练采用四阶段强化学习（RL）级联：数学和谜题的推理热身；基于 400 项任务的 RLVE-Gym 课程；带有测试时计算轨迹以及基于竞赛编程参考构建的合成代码环境的数学和代码 RL；以及针对聊天和指令遵循的行为 RL。我们还引入了马尔可夫 RSA（Markovian RSA），这是一种测试时计算方法，它在轮次之间仅向前携带有界长度的推理尾部，同时递归聚合并行推理轨迹。在测试时计算（TTC）评估中，马尔可夫 RSA 将 ZAYA1-8B 在 AIME'25 上的得分提升至 91.9%，在 HMMT'25 上达到 89.6%，同时仅携带 4K token 的尾部，缩小了与 Gemini-2.5 Pro、DeepSeek-V3.2 和 GPT-5-High 等大型推理模型的差距。

## I 引言

**图 1 标题：** ZAYA1-8B 结合马尔可夫 RSA 测试时计算与体量显著更大的推理模型在 AIME'25、HMMT'25 和 LCB-v6 上的对比。斜线条形图显示马尔可夫 RSA 相较于单次 rollout ZAYA1-8B 带来的提升。

在 0.7B 活跃参数以及 40K/4K 马尔可夫 RSA 配置（第 VI-C 节 (https://arxiv.org/html/2605.05365#S6.SS3)）下，ZAYA1-8B 在 AIME'25 上达到 91.9%，在 HMMT'25 上达到 89.6%，缩小了与大型专有和开源权重推理模型的差距。ZAYA1-8B 的数值（单次 rollout 和 TTC）在数学+代码+TTC RL 之后、最终轻量级行为 RL 抛光阶段之前，于 Zyphra 框架中评估；对比模型的数值取自官方发布材料（来源见表 XI (https://arxiv.org/html/2605.05365#S6.T11)）。最终的行为阶段旨在优化聊天风格、指令遵循和偏好行为，而非数学/代码/TTC 能力。

**图 2 标题：** HMMT'26、AIME'26 和 LiveCodeBench-v6 上的活跃参数缩放。ZAYA1-8B 显示为 0.7B 活跃参数，并与可用的大型开源权重和前沿模型进行比较。气泡面积表示可用的总参数量。

在本文中，我们介绍 ZAYA1-8B，一个拥有 7 亿活跃参数和 80 亿总参数的混合专家（MoE）模型。凭借不足 10 亿的活跃参数，ZAYA1-8B 在多项具有挑战性的数学和代码基准测试中匹配或超越了 DeepSeek-R1-0528，同时在与 OLMo-3.1-32B-Think、Nemotron-3-Nano-30B-A3B、Mistral-Small-4-119B-2603 和 Intellect-3-12A-106B 等体量显著更大的开源权重推理模型的竞争中保持竞争力（NVIDIA, 2025 (https://arxiv.org/html/2605.05365#bib.bib6); Team 等, 2025c (https://arxiv.org/html/2605.05365#bib.bib3); Team, 2025a (https://arxiv.org/html/2605.05365#bib.bib5); Mistral AI, 2026 (https://arxiv.org/html/2605.05365#bib.bib4)）。此外，通过使用我们的测试时计算方案马尔可夫 RSA，ZAYA1-8B 缩小了与 Gemini-2.5 Pro、DeepSeek-V3.2、Qwen3-235B-A22B-Thinking-2507 和 GPT-5-High 等体量显著更大的推理模型在 AIME'25 和 HMMT'25 上的差距（Comanici 等, 2025 (https://arxiv.org/html/2605.05365#bib.bib7); DeepSeek-AI, 2025c (https://arxiv.org/html/2605.05365#bib.bib9); Team, 2025b (https://arxiv.org/html/2605.05365#bib.bib10); OpenAI, 2025 (https://arxiv.org/html/2605.05365#bib.bib11)）。

这些结果表明，当模型架构、重度推理训练、可验证 RL 和测试时聚合协同设计时，可以使用不足 10 亿的活跃参数实现具有竞争力的数学推理能力。该系统结合了我们在实践中认为重要的五项设计选择：

**架构：** ZAYA1-8B 基于 Zyphra 的 MoE++ 架构（Anthony 等, 2025 (https://arxiv.org/html/2605.05365#bib.bib156)），相对于标准 Transformer MoE 设计有三项主要变更。首先，ZAYA1-8B 使用压缩卷积注意力（CCA）（Figliolia 等, 2025 (https://arxiv.org/html/2605.05365#bib.bib193)），这是一种 FLOP 和内存高效的注意力变体，在压缩的潜在空间中进行序列混合。先前研究表明，CCA 在小规模下的困惑度和标准语言建模方面表现良好；ZAYA1-8B 在更大规模以及更具挑战性的推理和长上下文任务上评估其表现。其次，ZAYA1-8B 使用 ZAYA1 路由器，用多层 MLP 设计取代了标准的线性 MoE 路由器，大幅提高了其表达能力。在我们的实验中，我们发现增加路由器的容量和表达能力是对边际参数的有力利用。少量路由器参数控制着数量多得多的专家参数，更好的路由决策显著减少了平衡不稳定性并提高了模型质量。第三，ZAYA1-8B 对残差流和每个块的层输入应用学习到的残差缩放，以极低的参数和 FLOP 成本控制残差范数随深度的增长。

**跨阶段的推理感知训练：** 我们从头为推理设计了 ZAYA1-8B。受证据启发，即在预训练期间包含推理数据可以产生仅靠后训练无法恢复的收益（Akter 等, 2025 (https://arxiv.org/html/2605.05365#bib.bib165)），我们在所有预训练阶段和中期训练中均包含长思维链（CoT）数据。为了训练超过预训练上下文长度的推理轨迹，我们引入了一种新颖的保留答案修剪方法论，该方法截断推理轨迹的尾部同时保留最终答案，如果仅答案本身也不符合长度限制，则丢弃该示例。不同于在推理或 RL rollout 生成期间操作的先前长度控制方法（Khatri 等, 2025 (https://arxiv.org/html/2605.05365#bib.bib163); Yang 等, 2025 (https://arxiv.org/html/2605.05365#bib.bib202)），AP-修剪应用于训练数据构建期间。

**级联强化学习管道：** ZAYA1-8B 的后训练使用四阶段 RL 级联：推理热身、基于 RLVE-Gym 环境套件（Zeng 等, 2025a (https://arxiv.org/html/2605.05365#bib.bib164)）的 400 项自适应难度课程、带有测试时计算轨迹的数学和代码 RL，以及最终的行为 RL 阶段。该级联使用异步 PipelineRL（Piché 等, 2025 (https://arxiv.org/html/2605.05365#bib.bib155); Khatri 等, 2025 (https://arxiv.org/html/2605.05365#bib.bib163)）结合 DPPO Binary-TV 信任区域掩码（Qie 等, 2026 (https://arxiv.org/html/2605.05365#bib.bib162)）、Dr-GRPO 序列级损失聚合（Liu 等, 2024 (https://arxiv.org/html/2605.05365#bib.bib148)）、MaxRL 优势估计（Tajwar 等, 2026 (https://arxiv.org/html/2605.05365#bib.bib13)），且在奖励中不使用 KL 正则化。稳定的训练需要大量的精度、验证器和数据策展工作，我们在报告中记录了这些内容。

**测试时计算方法：** 我们引入了马尔可夫 RSA，这是一种新颖的测试时计算方法，结合了 RSA（Venkatraman 等, 2025 (https://arxiv.org/html/2605.05365#bib.bib157)）的递归候选聚合结构与马尔可夫思维（Aghajohari 等, 2025 (https://arxiv.org/html/2605.05365#bib.bib158)）的有界工作空间原理。马尔可夫 RSA 将长推理转化为分阶段批处理推理：每个阶段并行生成 $N$ 个候选者，每个候选者具有有界的解码长度 $\beta$，且聚合预填充仅依赖于长度为 $\tau$ 的 $C$ 个向前携带的尾部，而不依赖于完整的推理历史。关键在于，我们还将马尔可夫 RSA 集成到训练中：SFT 数据是通过将专家模型的 rollouts 重新洗脱为聚合示例来构建的，RL 阶段同时训练专家模型和政策自聚合变体。所得到的模型针对推理时的马尔可夫 RSA 工作流进行训练，通过这种方式我们实现了显著的性能提升。

**AMD 训练栈：** 基于我们此前使用 AMD MI300X GPU 和 AMD Pensando Pollara 400 网络进行大规模预训练的工作（Anthony 等, 2025 (https://arxiv.org/html/2605.05365#bib.bib156)），ZAYA1-8B 在此 GPU/网络栈上进行了预训练、中期训练和监督微调。这提供了证据，表明该栈可以支持 80 亿总参数 MoE 推理模型的持续预训练、长上下文中期训练和监督微调。我们在 ZAYA1-8B 的规模上验证了这一栈；对体量显著更大的模型和更广泛并行机制的验证仍属于未来工作。

本报告其余部分组织如下：第 II 节 (https://arxiv.org/html/2605.05365#S2) 描述 ZAYA1-8B 架构。第 III 节 (https://arxiv.org/html/2605.05365#S3) 描述预训练、中期训练和保留答案修剪。第 IV 节 (https://arxiv.org/html/2605.05365#S4) 描述 SFT 阶段和 RL 级联，包括基础设施、精度、优化器和稳定性监控选择。第 V 节 (https://arxiv.org/html/2605.05365#S5) 报告基准测试结果和对比。第 VI 节 (https://arxiv.org/html/2605.05365#S6) 描述我们的测试时计算方法。第 VII 节 (https://arxiv.org/html/2605.05365#S7) 总结训练观察和开放问题。

## II 模型

**表 I：** ZAYA1-8B 模型配置。显示确切参数计数；四舍五入的发布惯例指该模型为 0.7B 活跃和 8B 总参数。架构常量遵循用于预训练和持续后训练的 ZAYA1 基础配置。

### II-A 架构

ZAYA1-8B 使用 MoE 架构，相对于当代 MoE 模型有三项变更：(1) 注意力块使用 CCA，(2) ZAYA1 路由器，以及 (3) 残差缩放。在我们的消融实验中，这些变更改善了相对于使用 MLA 或 GQA 注意力以及线性路由器的经典 MoE 架构的每参数困惑度（Shazeer 等, 2016 (https://arxiv.org/html/2605.05365#bib.bib93); Fedus 等, 2022 (https://arxiv.org/html/2605.05365#bib.bib53); Dai 等, 2024 (https://arxiv.org/html/2605.05365#bib.bib184)）。CCA 还提高了相对于 GQA 和 MLA 的训练速度，并在保持可比 KV-cache 压缩率的同时减少了预填充 FLOPs。

**图 3 标题：** ZAYA1-8B 模型架构。此处展示了三项主要架构变更中的两项：用于注意力块的 CCA 和 ZAYA1 路由器。ZAYA1 路由器用基于 MLP 的路由器取代线性路由器，该路由器由下投影、EDA 和三层 MLP 组成。

#### II-A1 压缩卷积注意力 (CCA)

CCA 使用轻量级卷积下投影器在压缩的潜在空间中进行序列混合。这减少了训练和预填充的计算需求，并减少了长上下文解码的 KV-cache 大小。CCA 与 MLA 和 GQA 等注意力变体具有竞争力（Ainslie 等, 2023 (https://arxiv.org/html/2605.05365#bib.bib152); DeepSeek-AI, 2025a (https://arxiv.org/html/2605.05365#bib.bib182)）。ZAYA1-8B 的推理和长上下文表现提供了证据，表明 CCA 在此规模下依然有效，并支持推理、上下文学习 (ICL) 和长程回忆。CCA 还支持我们在较低计算和通信成本下进行长上下文中期训练工作负载，这对于中期训练和 RL 阶段训练 ZAYA1-8B 至关重要。附录 C (https://arxiv.org/html/2605.05365#A3) 提供更多细节。

#### II-A2 ZAYA1 路由器

我们用更具表达力的路由器取代了许多大规模 MoE 模型中使用的标准线性路由器。首先，我们使用 MLP 代替线性路由器。其次，我们使用指数深度平均 (EDA)——一种深度加权平均的变体（Pagliardini 等, 2024 (https://arxiv.org/html/2605.05365#bib.bib199)）——将路由器表示与前一层的路由表示混合。

给定残差流输入 $x_l \in \mathbb{R}^{B \times S \times D}$，其中 $D$ 是残差流维度，ZAYA1 路由器首先使用学习到的权重矩阵 $W_{\text{down}} \in \mathbb{R}^{R \times D}$ 将残差流下投影到更小的路由器维度 $R$：

$$
r_l = W_{\text{down}} x_l \quad (1)
$$

使得 $r_l \in \mathbb{R}^{B \times S \times R}$。对于 ZAYA1-8B，我们设置 $R=256$。然后我们应用 EDA，它使用学习到的系数 $\gamma$ 将该表示与前一层结合：

$$
r_l = r_l + \gamma r_{l-1} \quad (2)
$$

EDA 操作后跟随一个带有 GeLU 激活的三层 MLP，以产生最终路由器得分 $s \in \mathbb{R}^{B \times S \times E}$，其中 $E$ 是专家数量：

$$
s_l = \text{softmax}(\text{MLP}(\text{RMSnorm}(r_l))) \quad (3)
$$

然后通过这些得分通过 top-k 操作选择专家：

$$
e_{\text{idx}} = \text{topk}(s_l + b_l) \quad (4)
$$

其中 $b_l$ 是学习到的偏置平衡向量，topk 选择每个 token 具有最大偏置路由器得分的 $k$ 个专家。在 ZAYA1-8B 中，$k=1$，因此 (4) (https://arxiv.org/html/2605.05365#S2.E4) 简化为对每个 token 选择 $\operatorname{arg\,max}_e(s_{l,e} + b_{l,e})$。

ZAYA1 路由器使用基于（DeepSeek-AI, 2025a (https://arxiv.org/html/2605.05365#bib.bib182)）的偏置平衡方案。路由偏置使用受经典控制理论中比例-积分-微分 (PID) 控制器启发的方案更新（Åström 和 Hägglund, 2006 (https://arxiv.org/html/2605.05365#bib.bib210)）。路由器在全球批次的专家选择上强制执行平衡。我们的 PID 优化器内部使用 AdamW，传递给优化器的误差信号是经验路由概率分布与均匀分布之间的差异。具体而言，第 $l$ 层专家 $e$ 的梯度 $\nabla b_{l,e}$ 计算为：

$$
\nabla b_{l,e} = p_{l,e} - \frac{1}{E} \quad (5)
$$

其中 $p_{l,e}$ 是当前批次中路由到专家 $e$ 的 token 的实际比例，$E$ 是专家总数。然后该梯度信号由 AdamW 用于更新偏置项，惩罚过度使用的专家并提升使用不足的专家。这改善了 PID 环路的收敛速度和稳定性，优于经典的 DeepSeek 实现。在我们的实验中，MLP 路由器和 EDA 提高了 MoE 性能，并使平衡（图 4 (https://arxiv.org/html/2605.05365#S2.F4)）和专家专业化更容易。额外的 MLP 增加了一些 FLOPs 和参数，但参数匹配的消融实验表明，与专家或注意力相比，路由器是边际参数的强有力目标。增加的路由器参数和 FLOPs 保持...

ZAYA1-8B 技术报告

相似文章

Zyphra/ZAYA1-8B

ZAYA1-74B-Preview：在AMD上扩展预训练

MAI-Thinking-1

@cerebras: https://x.com/cerebras/status/2067357992929153268

VibeThinker: 在推理上击败Opus 4.5的3B参数模型，采用新颖的SFT+GRPO方法

提交意见反馈