ZAYA1-74B-Preview：在AMD上扩展预训练

Reddit r/LocalLLaMA 2026/05/07 22:50 模型

ai-model pre-training reasoning zyphra large-language-model amd-gpus

摘要

Zyphra发布ZAYA1-74B-Preview，一个在AMD硬件上训练的740亿参数基础模型，强调了强大的预强化学习推理能力和智能体性能信号。

暂无内容

查看缓存全文

缓存时间: 2026/05/08 10:04

# Zyphra 来源：https://www.zyphra.com/post/zaya1-74b-preview ##### 引言近期发布的 ZAYA1-8B (https://www.zyphra.com/post/zaya1-8b) 凭借我们架构、预训练和后训练栈的优势，在其规模下展现了卓越的性能和智能密度。随着 ZAYA1-74B-Preview 的发布，我们旨在展示我们的进展。ZAYA1-74B-Preview 是一个预 RL 推理基础检查点，经历了预训练、中间训练和上下文扩展。该模型尚未经过 RL 后训练或任何形式的指令或对话微调。 ZAYA1-74B-Preview 是一个预 RL 检查点，而非最终推理模型，因此以公平方式与其他模型直接比较颇具挑战性。我们选择直接与完全 RL 后训练的竞争模型版本进行比较，并为我们的模型提供 avg@1 和 pass@4 分数。我们将 pass@4 分数视为证据，表明经过扩展的 ZAYA1-74B-Preview 基础模型已经能够以有意义的频率产生成功的推理和智能体轨迹。这表明在相应领域中，可验证和智能体 RL 有足够的信号可供利用。虽然推理基础模型不出所料地落后于完全后训练的竞争模型，但我们的 pass@4 分数极具竞争力，并带来显著提升，表明该模型保持了显著的多样性，并拥有大量等待 RL 打磨的潜在能力。对于 ZAYA1-8B，我们在中间训练检查点中观察到 pass@k 性能与最终后 RL 性能之间的紧密相关性，且实际收益巨大：AIME'26 提升 +20.8，HMMT'26 提升 +32.4，LiveCodeBench-v6 提升 +10.0，GPQA-Diamond 提升 +11.7，IFEval 提升 +19.0，IFBench 提升 +22.4，BFCL-v4 提升 +7.1，τ² 提升 +3.4。我们将其视为在 74B 上可能实现类似改进的信号。虽然 ZAYA1-8B 在智能体任务上较弱，但我们在 ZAYA1-74B-Preview 的预训练和中间训练语料库中重点关注了智能体能力，并在诸如 τ-bench 等评估中观察到了有希望的迹象。特别是对于智能体任务，pass@k 并非推理模型能力的完全衡量标准：多轮环境对指令遵循、状态跟踪和对中间失败的鲁棒性提出了更高要求。因此，我们期望专门的智能体 RL 能在此处展示的能力之外带来额外提升。同时，我们也认识到 RL 并不保证将基础推理模型上派生的 pass@4 性能转化为这些基准上推理模型的相应 pass@1 增益。 ## 架构与预训练 ZAYA1-74B-Preview 基本上沿用了与 ZAYA1-8B 相同的架构：为提升长上下文效率，我们将每隔一个注意力层替换为窗口大小为 4K 的滑动窗口注意力（SWA）层。全局和滑动窗口注意力均使用 Zyphra 的 CCA 注意力变体 (https://arxiv.org/abs/2510.04476)。在我们的消融研究中，我们观察到 SWA 将总 KV 缓存使用量减少了近一半，同时对长上下文基准无负面影响。为获得这一性能提升，我们发现保留 SWA 层在预训练时的原始 RoPE 基频至关重要，同时在上下文扩展时仅扩展全局层的 RoPE 基频。保持原始 RoPE 基频会在 SWA 层中引入强近期偏差，我们发现这总体上提升了长上下文性能。 ZAYA1-74B-Preview 的预训练和中间训练分多个阶段进行。预训练包含两个阶段：第一阶段主要使用大型公开网络语料库，侧重于通用知识；第二阶段则更注重构建模型的通用数学、编码和科学能力，尽管仍主要基于网络数据集。预训练总计约 15T tokens。中间训练经历了三个阶段，逐步扩展上下文，将模型引入现代推理轨迹，并聚焦于数学、编码和智能体技能。我们将上下文先扩展至 32k，再至 128k，最后到 256k。每个中间训练阶段覆盖约 1T tokens。我们的预训练硬件包括每节点配备 192GB VRAM 的 MI300x GPU，并通过 Pensando Pollara 实现高效的节点间通信。我们共同设计的训练栈的专家-上下文-并行折叠机制以及模型架构的 CCA 计算效率，提升了我们在长上下文下处理大量 tokens 的训练能力。 ## 结论我们很高兴发布并展示 ZAYA1-74B-Preview，这是我们迈向 AMD 扩展之路的一个里程碑。AMD 上的全规模 RL 正在进行中，我们预计将在未来几周发布最终的 ZAYA1-74B 模型。模型权重可在 Hugging Face (https://huggingface.co/Zyphra/ZAYA1-74B-preview) 上获取，采用 Apache 2.0 许可证。

ZAYA1-74B-Preview：在AMD上扩展预训练

相似文章

ZAYA1-8B 技术报告

Zyphra/ZAYA1-8B

Qwen3.6-Max-Preview

Claude Mythos、Deepseek v4、HappyHorse、Meta 新 AI、实时视频游戏：AI 新闻

HY-3 预览版

提交意见反馈