silx-ai/Quasar-Preview

Hugging Face Models Trending 2026/06/08 20:11 模型

moe sparse-mixture-of-experts foundation-model long-context decentralized research

摘要

SILX AI 发布 Quasar-Preview，这是一个 18B 参数 MoE 基础模型，具有 2B 活跃参数和实验性的 5M token 上下文，基于混合循环/注意力架构构建，并设计用于通过 Bittensor SN24 进行去中心化训练。

Task: text-generation Tags: transformers, safetensors, quasar_long, text-generation, silx-ai, quasar-preview, quasar, foundation-model, moe, 18b, 2b-active, long-context, bittensor, sn24, decentralized-training, distillation, hybrid-transformer, loop-transformer, safe-nope, drope, conversational, custom_code, en, ar, license:mit, region:us

查看原文

查看缓存全文

缓存时间: 2026/06/15 00:49

silx-ai/Quasar-Preview · Hugging Face

Quasar-Preview 是 SILX AI 的 Quasar 基础模型系列 中的首个公开模型。

它是一个早期的预览检查点，旨在展示 Quasar 架构在真实规模上的方向：稀疏 MoE 路由、混合循环/注意力层，以及为未来基于记忆的系统设计的实验性长上下文配置。

这不是最终的 Quasar 模型。

Quasar-Preview 是更大 Quasar 模型系列中的第一个公开步骤，该系列将通过去中心化训练、蒸馏、架构改进以及在 Bittensor SN24 上的长上下文研究，继续扩展规模。

TL;DR

首个公开的 Quasar 模型
约 18B 总参数的 MoE
约 2B 活跃参数路径
实验性 500 万 token 上下文配置
基于 Loop Transformer + Quasar 混合注意力
包含 Quasar / Raven / GLA 混合层
专为 Bittensor SN24 去中心化蒸馏 设计
训练数据量 >1T 且 <1.5T tokens
长上下文扩展路径目前仅接收了 <1B tokens 的训练
早期预览检查点，非最终生产级/SOTA 模型

Quasar-Preview 应被理解为 架构预览和基础检查点，而非 Quasar 路线的最终终点。

重要说明

Quasar-Preview 是更广泛的 Quasar 模型系列中的早期模型。

发布它的目的是公开架构、让矿工和研究人员可以使用该模型，并开启去中心化扩展的下一阶段。

此模型是：

一个早期预览检查点
计划中 Quasar 模型系列的 首个模型
训练数据量 >1T 且 <1.5T tokens
专为 研究、蒸馏和 SN24 训练 而构建
尚未达到最终的 Quasar 模型
不代表 Quasar 架构的最终质量

性能预计将通过与以下方式迭代提升：

子网训练
蒸馏循环
更长的训练运行
更强的后训练
更多的长上下文扩展训练
未来的 Quasar 架构更新

模型概览

字段	值
模型名称	Quasar-Preview
模型系列	Quasar 基础模型
组织	SILX AI
模型类型	`quasar_long`
架构	Quasar Long 混合 Transformer
总参数量	~18B 类
活跃参数量	~2B 类稀疏 MoE 路径
训练阶段	早期预览检查点
上下文配置	实验性 500 万 token 配置
长上下文方法	安全 NoPE / DrOPE 风格阶段
分词器	Quasar 分词器（保留自检查点谱系）
主要用途	研究、蒸馏、SN24 去中心化训练
许可证	MIT

此检查点中活跃的内容

Quasar-Preview 包含多个架构路径。其中一些在此检查点中处于活跃状态，另一些则留待未来的 Quasar 版本使用。

组件	在 Quasar-Preview 中的状态
稀疏 MoE	活跃
Quasar 混合层	活跃
GLA 分支	活跃
Raven 分支	活跃
GQA 兼容性注意力	此检查点中活跃
安全 NoPE / DrOPE 风格上下文配置	活跃
Loop Transformer 框架	存在
循环执行	配置为单循环
循环锚点注入	禁用
Engram 记忆	包含且可加载，默认不活跃
500 万上下文	配置已暴露，仅进行了早期长上下文训练

此版本的目标是在保持模型稳定以用于研究和 SN24 训练的同时，公开首个可工作的 Quasar 架构检查点。

快速开始

Quasar-Preview 使用自定义架构代码。

加载模型时请使用 trust_remote_code=True。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "SILX-AI/Quasar-Preview"

tokenizer = AutoTokenizer.from_pretrained(
    model_id,
    trust_remote_code=True
)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

prompt = "用简单的话解释长上下文模型的目的。"

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

with torch.no_grad():
    output = model.generate(
        **inputs,
        max_new_tokens=256,
        do_sample=True,
        temperature=0.7,
        top_p=0.9
    )

print(tokenizer.decode(output[0], skip_special_tokens=True))

推理说明

Quasar-Preview 是一个约 18B 总参数的 MoE 检查点。即使活跃路径只有约 2B 参数，完整的检查点仍需加载模型权重。

实际内存使用取决于：

精度
量化
运行时实现
序列长度
批大小
设备映射
是否启用了长上下文实验

500 万 token 上下文配置是实验性的。请不要假设普通推理硬件能在没有专门基础设施的情况下运行完整的 500 万 token 上下文。

Quasar-Preview 基准测试快照

以下来自当前 Quasar 检查点谱系的早期基准测试结果。

应将其视为动态快照，而非最终模型质量。

类别	基准测试	Quasar-Preview
知识	MMLU (5-shot)	68.40%
知识	MMLU-Pro	33.20%
知识	GPQA	25.60%
常识	ARC Challenge	63.00%
常识	ARC Easy	80.10%
常识	PIQA	81.90%
常识	HellaSwag	74.00%
科学	OpenBookQA	47.00%
数学	MATH-500 (4-shot)	71.40%

评估说明

这些结果作为当前 Quasar-Preview 检查点谱系的早期内部快照提供。

它们不代表最终模型质量。公开验证、不同的评估框架版本、提示格式、解码设置和评估实现可能会改变报告的数值。

在将 Quasar-Preview 与其他模型进行比较时，请报告：

评估框架
框架版本或提交号
提示格式
示例数量
解码设置
是否使用了思维链提示
确切的检查点版本

训练策略

Quasar 遵循多阶段训练计划。

Quasar-Preview 是该计划中的一个早期检查点。

第一阶段 — 基础预训练

基础模型在广泛语料库上训练，以建立通用的下一个 token 预测、推理和语言能力。

此阶段的目标：

稳定稀疏 MoE 路径
建立通用语言能力
训练混合 Quasar 堆栈
建立适合蒸馏和子网训练的检查点

Quasar-Preview 目前已在 >1T 且 <1.5T tokens 的数据上训练。

第二阶段 — 蒸馏与能力训练

基础训练之后，Quasar-Preview 通过任务蒸馏和针对性能力训练进行改进。

目标是使检查点对以下方面更有用：

推理
指令遵循
常识任务
数学和科学任务
SN24 矿工蒸馏
未来的后训练

此版本旨在作为持续去中心化改进的基础，而非最终结果。

第三阶段 — 长上下文扩展

Quasar 旨在向超长上下文推理和记忆迈进。

当前检查点使用安全 NoPE / DrOPE 风格阶段暴露了实验性的 500 万 token 上下文配置。

重要提示：500 万 token 上下文路径目前仅收到 不到 1B tokens 的长上下文扩展训练。

因此，配置虽然存在，但尚不应预期成熟的 500 万 token 推理质量。

此阶段的目的：

保留短上下文行为
避免在扩展期间损坏基础模型
为未来的长上下文训练准备架构
支持关于可扩展记忆和回忆的研究

Quasar Long 混合架构

Quasar 是一种混合 Transformer 架构，专为长上下文研究、稀疏计算和去中心化训练而设计。

它基于以下组件构建：

Loop Transformer 执行框架
稀疏混合专家路由
混合 Quasar / Raven / GLA 分支层
可选的锚点状态条件
可选的 Engram n-gram 记忆
安全 NoPE / DrOPE 风格长上下文配置

Quasar-Preview 是该架构家族中的第一个公开检查点。

技术规格

组件	值
总参数量	~18B
活跃参数量	~2B
层数	20
隐藏层大小	2048
中间层大小	5120
注意力头数	16
KV 头数	4
头维度	128
词表大小	157,184
专家数	256
每 token 专家数	8
共享专家数	1
活跃混合层	4-19
Raven 槽位数	64
Raven top-k	32
Engram 槽位配置	2,000,000
循环计数配置	1
循环注入配置	禁用
最大上下文配置	5,000,000
安全 NoPE 截断点	512

兼容性说明：此检查点包含当前发布路径的 GQA。未来的 Quasar 版本可能会随着架构演进而更改此组件。

Loop Transformer 路径

Quasar 包含一个 Loop Transformer 执行路径。

其思想是复用解码器堆栈进行多次传递，增加有效计算深度，而无需将每个参数复制到更深的模型中。

当前检查点配置保守：

num_loops: 1
use_looped_injection: false

这意味着 Quasar-Preview 默认以单循环模式运行。

循环机制仍是架构代码的一部分，可以在未来的 Quasar 配置中启用。

当启用循环注入时，Quasar 会保留输入嵌入流的一个锚点快照，通常称为 P，并在循环执行期间将其注入回隐藏状态。

这使后续循环传递能够获得原始 token 流的稳定参考。

预期的未来循环路径是：

Token IDs
  |
  v
嵌入层
  |
  +--> 锚点 P 快照
  |
  v
解码器堆栈
  |
  v
循环传递 1
  |
  +--> 注入门控锚点 P
  |
  v
循环传递 2 / 未来传递
  |
  v
最终隐藏状态

注入门初始化为接近零，以便模型能够安全适应，而不是突然改变行为。

这为 Quasar 提供了一条通往更深入有效推理的路径，同时保持参数数量可控。

核心数据流

Token IDs
  |
  v
Token 嵌入
  |
  +--> 可选的锚点 P 快照
  |
  v
早期 Transformer 块
  层 0-3
  |
  v
混合 Quasar 块
  层 4-19
  |
  +--> GQA 注意力路径
  |
  +--> Quasar 循环/线性路径
  |
  +--> Raven 槽位记忆路径
  |
  +--> GLA 循环路径
  |
  v
混合加 / 分支合并
  |
  v
可选的循环注入 / 下一循环
  |
  v
RMSNorm
  |
  v
LM Head
  |
  v
下一个 token 的 logits

混合层组成

活跃的混合层为：

4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

当前的逐层分支循环为：

quasar -> raven -> quasar -> quasar -> gla

在整个混合堆栈中，这给出了：

Quasar 分支： 10 层
Raven 分支： 3 层
GLA 分支： 3 层

这种设计使 Quasar 成为主导分支，同时为模型提供有针对性的循环和槽位记忆路径。

Quasar + GLA

GLA 通过捆绑的 Flash Linear Attention 堆栈使用。

GLA 分支的目标是为 Quasar 提供一条快速的循环序列混合路径，在长序列长度上比完全密集注意力更便宜。

当前的 GLA 相关配置：

hybrid_gla_enabled: true
hybrid_gla_expand_k: 1.0
hybrid_gla_expand_v: 1.0
hybrid_use_short_conv: false

GLA 在此处并非作为独立模型使用。

它是 Quasar 混合层内部的一个分支。

Raven 设计

Raven 被包含为一个槽位路由的循环注意力分支。

当前 Raven 配置：

hybrid_raven_enabled: true
hybrid_raven_slots: 64
hybrid_raven_topk: 32
hybrid_raven_decay_type: Mamba2

Raven 通过固定数量的循环记忆槽位路由隐藏状态。

在此检查点中：

该分支有 64 个记忆槽位
它选择 top-32 路由
它使用 Mamba2 风格的衰减

Raven 为 Quasar 提供了一条类似记忆的路径，序列信息可以压缩到路由循环状态中，而不仅仅依赖密集注意力。

Engram 设计

Engram 是 Quasar 的条件性 n-gram 记忆模块。

它包含在资源库中，文件名为 engram.py，支持以下功能：

n-gram 阶数 [2, 3]
8 个 Engram 头
可配置的记忆槽位
Triton 哈希表查找
门控投影回到残差流

当前 Engram 配置：

engram_slots: 2,000,000
engram_dim: 512
engram_ngram_orders: [2, 3]
engram_num_heads: 8
engram_residual_scale: 0.01
engram_lr_multiplier: 5.0
engram_layers: []

engram_layers 当前为空。

这意味着 Engram 被包含且可加载，但在 Quasar-Preview 中默认不活跃。

未来的 Quasar 版本可以在不改变基础模型形状的情况下，在选定层上启用 Engram。

Engram 旨在作为重复局部模式的快速回忆路径，而主模型则专注于推理和泛化。

安全 NoPE / DrOPE 上下文设计

当前检查点使用安全 NoPE 作为默认的长上下文配置。

当前上下文配置：

use_nope: true
long_context_mode: rope_short_nope_long
nope_after_position: 512
max_position_embeddings: 5,000,000
max_seq_length: 5,000,000
max_sequence_length: 5,000,000
rope_scaling: null
rope_theta: 10000

行为如下：

位置 0-511
  -> 正常 RoPE

位置 512+
  -> NoPE 恒等旋转
     cos = 1
     sin = 0

这是一种用于位置扩展的安全 DrOPE 风格阶段设计。

目标：

保留短上下文行为
避免到处拉伸 RoPE
避免分配巨大的 500 万 RoPE 表
暴露 500 万序列长度配置
为未来的长上下文训练运行做准备

重要提示：500 万上下文路径目前仅收到 不到 1B tokens 的长上下文扩展训练。

因此，尚不应预期高质量的 500 万 token 推理。

包含此设置是为了安全地暴露和继续训练长上下文路径。

配置快照

{
  "model_type": "quasar_long",
  "architectures": ["QuasarLongForCausalLM"],
  "hidden_size": 2048,
  "intermediate_size": 5120,
  "num_hidden_layers": 20,
  "num_attention_heads": 16,
  "num_key_value_heads": 4,
  "head_dim": 128,
  "vocab_size": 157184,
  "num_experts": 256,
  "num_experts_per_tok": 8,
  "num_shared_experts": 1,
  "num_loops": 1,
  "use_looped_injection": false,
  "hybrid_attention_layers": [4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
  "hybrid_branch_layout": "layerwise",
  "hybrid_layerwise_cycle": ["quasar", "raven", "quasar", "quasar", "gla"],
  "hybrid_replacement_mode": "add",
  "hybrid_eval_mode": "hybrid_add",
  "hybrid_quasar_en