ZAYA1-74B-Preview:在AMD上扩展预训练

Reddit r/LocalLLaMA 模型

摘要

Zyphra发布ZAYA1-74B-Preview,一个在AMD硬件上训练的740亿参数基础模型,强调了强大的预强化学习推理能力和智能体性能信号。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 10:04

# Zyphra 来源:https://www.zyphra.com/post/zaya1-74b-preview ##### 引言 近期发布的 ZAYA1-8B (https://www.zyphra.com/post/zaya1-8b) 凭借我们架构、预训练和后训练栈的优势,在其规模下展现了卓越的性能和智能密度。 随着 ZAYA1-74B-Preview 的发布,我们旨在展示我们的进展。ZAYA1-74B-Preview 是一个预 RL 推理基础检查点,经历了预训练、中间训练和上下文扩展。该模型尚未经过 RL 后训练或任何形式的指令或对话微调。 ZAYA1-74B-Preview 是一个预 RL 检查点,而非最终推理模型,因此以公平方式与其他模型直接比较颇具挑战性。我们选择直接与完全 RL 后训练的竞争模型版本进行比较,并为我们的模型提供 avg@1 和 pass@4 分数。我们将 pass@4 分数视为证据,表明经过扩展的 ZAYA1-74B-Preview 基础模型已经能够以有意义的频率产生成功的推理和智能体轨迹。这表明在相应领域中,可验证和智能体 RL 有足够的信号可供利用。 虽然推理基础模型不出所料地落后于完全后训练的竞争模型,但我们的 pass@4 分数极具竞争力,并带来显著提升,表明该模型保持了显著的多样性,并拥有大量等待 RL 打磨的潜在能力。对于 ZAYA1-8B,我们在中间训练检查点中观察到 pass@k 性能与最终后 RL 性能之间的紧密相关性,且实际收益巨大:AIME'26 提升 +20.8,HMMT'26 提升 +32.4,LiveCodeBench-v6 提升 +10.0,GPQA-Diamond 提升 +11.7,IFEval 提升 +19.0,IFBench 提升 +22.4,BFCL-v4 提升 +7.1,τ² 提升 +3.4。我们将其视为在 74B 上可能实现类似改进的信号。 虽然 ZAYA1-8B 在智能体任务上较弱,但我们在 ZAYA1-74B-Preview 的预训练和中间训练语料库中重点关注了智能体能力,并在诸如 τ-bench 等评估中观察到了有希望的迹象。特别是对于智能体任务,pass@k 并非推理模型能力的完全衡量标准:多轮环境对指令遵循、状态跟踪和对中间失败的鲁棒性提出了更高要求。因此,我们期望专门的智能体 RL 能在此处展示的能力之外带来额外提升。同时,我们也认识到 RL 并不保证将基础推理模型上派生的 pass@4 性能转化为这些基准上推理模型的相应 pass@1 增益。 ## 架构与预训练 ZAYA1-74B-Preview 基本上沿用了与 ZAYA1-8B 相同的架构:为提升长上下文效率,我们将每隔一个注意力层替换为窗口大小为 4K 的滑动窗口注意力(SWA)层。全局和滑动窗口注意力均使用 Zyphra 的 CCA 注意力变体 (https://arxiv.org/abs/2510.04476)。在我们的消融研究中,我们观察到 SWA 将总 KV 缓存使用量减少了近一半,同时对长上下文基准无负面影响。为获得这一性能提升,我们发现保留 SWA 层在预训练时的原始 RoPE 基频至关重要,同时在上下文扩展时仅扩展全局层的 RoPE 基频。保持原始 RoPE 基频会在 SWA 层中引入强近期偏差,我们发现这总体上提升了长上下文性能。 ZAYA1-74B-Preview 的预训练和中间训练分多个阶段进行。预训练包含两个阶段:第一阶段主要使用大型公开网络语料库,侧重于通用知识;第二阶段则更注重构建模型的通用数学、编码和科学能力,尽管仍主要基于网络数据集。预训练总计约 15T tokens。 中间训练经历了三个阶段,逐步扩展上下文,将模型引入现代推理轨迹,并聚焦于数学、编码和智能体技能。我们将上下文先扩展至 32k,再至 128k,最后到 256k。每个中间训练阶段覆盖约 1T tokens。 我们的预训练硬件包括每节点配备 192GB VRAM 的 MI300x GPU,并通过 Pensando Pollara 实现高效的节点间通信。我们共同设计的训练栈的专家-上下文-并行折叠机制以及模型架构的 CCA 计算效率,提升了我们在长上下文下处理大量 tokens 的训练能力。 ## 结论 我们很高兴发布并展示 ZAYA1-74B-Preview,这是我们迈向 AMD 扩展之路的一个里程碑。AMD 上的全规模 RL 正在进行中,我们预计将在未来几周发布最终的 ZAYA1-74B 模型。 模型权重可在 Hugging Face (https://huggingface.co/Zyphra/ZAYA1-74B-preview) 上获取,采用 Apache 2.0 许可证。

相似文章

ZAYA1-8B 技术报告

arXiv cs.AI

本报告介绍了 ZAYA1-8B,这是一款在 AMD 硬件上训练的混合专家推理模型,使用少于 10 亿的激活参数在数学和编程基准测试中取得了具有竞争力的性能。报告还详细介绍了马尔可夫式 RSA(Markovian RSA),这是一种用于聚合并行推理轨迹的新型测试时计算(test-time compute)方法。

Zyphra/ZAYA1-8B

Hugging Face Models Trending

Zyphra 发布了 ZAYA1-8B,这是一款拥有 84 亿参数的混合专家模型(Mixture-of-Experts),其中活跃参数为 7.6 亿。该模型在数学和代码推理任务中展现出极高的效率与卓越的性能。

Qwen3.6-Max-Preview

Product Hunt

阿里巴巴发布旗舰模型 Qwen3.6-Max-Preview,专为智能体编程任务优化。

HY-3 预览版

Reddit r/LocalLLaMA

腾讯发布 2950 亿参数的 MoE 模型 Hy3-preview,激活参数 210 亿,在 STEM 推理、指令遵循、编程与智能体任务上表现卓越。