silx-ai/Quasar-Preview
摘要
SILX AI 发布 Quasar-Preview,这是一个 18B 参数 MoE 基础模型,具有 2B 活跃参数和实验性的 5M token 上下文,基于混合循环/注意力架构构建,并设计用于通过 Bittensor SN24 进行去中心化训练。
查看缓存全文
缓存时间: 2026/06/15 00:49
silx-ai/Quasar-Preview · Hugging Face
Quasar-Preview 是 SILX AI 的 Quasar 基础模型系列 中的首个公开模型。
它是一个早期的预览检查点,旨在展示 Quasar 架构在真实规模上的方向:稀疏 MoE 路由、混合循环/注意力层,以及为未来基于记忆的系统设计的实验性长上下文配置。
这不是最终的 Quasar 模型。
Quasar-Preview 是更大 Quasar 模型系列中的第一个公开步骤,该系列将通过去中心化训练、蒸馏、架构改进以及在 Bittensor SN24 上的长上下文研究,继续扩展规模。
TL;DR
- 首个公开的 Quasar 模型
- 约 18B 总参数的 MoE
- 约 2B 活跃参数路径
- 实验性 500 万 token 上下文配置
- 基于 Loop Transformer + Quasar 混合注意力
- 包含 Quasar / Raven / GLA 混合层
- 专为 Bittensor SN24 去中心化蒸馏 设计
- 训练数据量 >1T 且 <1.5T tokens
- 长上下文扩展路径目前仅接收了 <1B tokens 的训练
- 早期预览检查点,非最终生产级/SOTA 模型
Quasar-Preview 应被理解为 架构预览和基础检查点,而非 Quasar 路线的最终终点。
重要说明
Quasar-Preview 是更广泛的 Quasar 模型系列中的早期模型。
发布它的目的是公开架构、让矿工和研究人员可以使用该模型,并开启去中心化扩展的下一阶段。
此模型是:
- 一个早期预览检查点
- 计划中 Quasar 模型系列的 首个模型
- 训练数据量 >1T 且 <1.5T tokens
- 专为 研究、蒸馏和 SN24 训练 而构建
- 尚未达到最终的 Quasar 模型
- 不代表 Quasar 架构的最终质量
性能预计将通过与以下方式迭代提升:
- 子网训练
- 蒸馏循环
- 更长的训练运行
- 更强的后训练
- 更多的长上下文扩展训练
- 未来的 Quasar 架构更新
模型概览
| 字段 | 值 |
|---|---|
| 模型名称 | Quasar-Preview |
| 模型系列 | Quasar 基础模型 |
| 组织 | SILX AI |
| 模型类型 | quasar_long |
| 架构 | Quasar Long 混合 Transformer |
| 总参数量 | ~18B 类 |
| 活跃参数量 | ~2B 类稀疏 MoE 路径 |
| 训练阶段 | 早期预览检查点 |
| 上下文配置 | 实验性 500 万 token 配置 |
| 长上下文方法 | 安全 NoPE / DrOPE 风格阶段 |
| 分词器 | Quasar 分词器(保留自检查点谱系) |
| 主要用途 | 研究、蒸馏、SN24 去中心化训练 |
| 许可证 | MIT |
此检查点中活跃的内容
Quasar-Preview 包含多个架构路径。其中一些在此检查点中处于活跃状态,另一些则留待未来的 Quasar 版本使用。
| 组件 | 在 Quasar-Preview 中的状态 |
|---|---|
| 稀疏 MoE | 活跃 |
| Quasar 混合层 | 活跃 |
| GLA 分支 | 活跃 |
| Raven 分支 | 活跃 |
| GQA 兼容性注意力 | 此检查点中活跃 |
| 安全 NoPE / DrOPE 风格上下文配置 | 活跃 |
| Loop Transformer 框架 | 存在 |
| 循环执行 | 配置为单循环 |
| 循环锚点注入 | 禁用 |
| Engram 记忆 | 包含且可加载,默认不活跃 |
| 500 万上下文 | 配置已暴露,仅进行了早期长上下文训练 |
此版本的目标是在保持模型稳定以用于研究和 SN24 训练的同时,公开首个可工作的 Quasar 架构检查点。
快速开始
Quasar-Preview 使用自定义架构代码。
加载模型时请使用 trust_remote_code=True。
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "SILX-AI/Quasar-Preview"
tokenizer = AutoTokenizer.from_pretrained(
model_id,
trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
model_id,
trust_remote_code=True,
torch_dtype=torch.bfloat16,
device_map="auto"
)
prompt = "用简单的话解释长上下文模型的目的。"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
**inputs,
max_new_tokens=256,
do_sample=True,
temperature=0.7,
top_p=0.9
)
print(tokenizer.decode(output[0], skip_special_tokens=True))
推理说明
Quasar-Preview 是一个约 18B 总参数的 MoE 检查点。即使活跃路径只有约 2B 参数,完整的检查点仍需加载模型权重。
实际内存使用取决于:
- 精度
- 量化
- 运行时实现
- 序列长度
- 批大小
- 设备映射
- 是否启用了长上下文实验
500 万 token 上下文配置是实验性的。请不要假设普通推理硬件能在没有专门基础设施的情况下运行完整的 500 万 token 上下文。
Quasar-Preview 基准测试快照
以下来自当前 Quasar 检查点谱系的早期基准测试结果。
应将其视为动态快照,而非最终模型质量。
| 类别 | 基准测试 | Quasar-Preview |
|---|---|---|
| 知识 | MMLU (5-shot) | 68.40% |
| 知识 | MMLU-Pro | 33.20% |
| 知识 | GPQA | 25.60% |
| 常识 | ARC Challenge | 63.00% |
| 常识 | ARC Easy | 80.10% |
| 常识 | PIQA | 81.90% |
| 常识 | HellaSwag | 74.00% |
| 科学 | OpenBookQA | 47.00% |
| 数学 | MATH-500 (4-shot) | 71.40% |
评估说明
这些结果作为当前 Quasar-Preview 检查点谱系的早期内部快照提供。
它们不代表最终模型质量。公开验证、不同的评估框架版本、提示格式、解码设置和评估实现可能会改变报告的数值。
在将 Quasar-Preview 与其他模型进行比较时,请报告:
- 评估框架
- 框架版本或提交号
- 提示格式
- 示例数量
- 解码设置
- 是否使用了思维链提示
- 确切的检查点版本
训练策略
Quasar 遵循多阶段训练计划。
Quasar-Preview 是该计划中的一个早期检查点。
第一阶段 — 基础预训练
基础模型在广泛语料库上训练,以建立通用的下一个 token 预测、推理和语言能力。
此阶段的目标:
- 稳定稀疏 MoE 路径
- 建立通用语言能力
- 训练混合 Quasar 堆栈
- 建立适合蒸馏和子网训练的检查点
Quasar-Preview 目前已在 >1T 且 <1.5T tokens 的数据上训练。
第二阶段 — 蒸馏与能力训练
基础训练之后,Quasar-Preview 通过任务蒸馏和针对性能力训练进行改进。
目标是使检查点对以下方面更有用:
- 推理
- 指令遵循
- 常识任务
- 数学和科学任务
- SN24 矿工蒸馏
- 未来的后训练
此版本旨在作为持续去中心化改进的基础,而非最终结果。
第三阶段 — 长上下文扩展
Quasar 旨在向超长上下文推理和记忆迈进。
当前检查点使用安全 NoPE / DrOPE 风格阶段暴露了实验性的 500 万 token 上下文配置。
重要提示:500 万 token 上下文路径目前仅收到 不到 1B tokens 的长上下文扩展训练。
因此,配置虽然存在,但尚不应预期成熟的 500 万 token 推理质量。
此阶段的目的:
- 保留短上下文行为
- 避免在扩展期间损坏基础模型
- 为未来的长上下文训练准备架构
- 支持关于可扩展记忆和回忆的研究
Quasar Long 混合架构
Quasar 是一种混合 Transformer 架构,专为长上下文研究、稀疏计算和去中心化训练而设计。
它基于以下组件构建:
- Loop Transformer 执行框架
- 稀疏混合专家路由
- 混合 Quasar / Raven / GLA 分支层
- 可选的锚点状态条件
- 可选的 Engram n-gram 记忆
- 安全 NoPE / DrOPE 风格长上下文配置
Quasar-Preview 是该架构家族中的第一个公开检查点。
技术规格
| 组件 | 值 |
|---|---|
| 总参数量 | ~18B |
| 活跃参数量 | ~2B |
| 层数 | 20 |
| 隐藏层大小 | 2048 |
| 中间层大小 | 5120 |
| 注意力头数 | 16 |
| KV 头数 | 4 |
| 头维度 | 128 |
| 词表大小 | 157,184 |
| 专家数 | 256 |
| 每 token 专家数 | 8 |
| 共享专家数 | 1 |
| 活跃混合层 | 4-19 |
| Raven 槽位数 | 64 |
| Raven top-k | 32 |
| Engram 槽位配置 | 2,000,000 |
| 循环计数配置 | 1 |
| 循环注入配置 | 禁用 |
| 最大上下文配置 | 5,000,000 |
| 安全 NoPE 截断点 | 512 |
兼容性说明:此检查点包含当前发布路径的 GQA。未来的 Quasar 版本可能会随着架构演进而更改此组件。
Loop Transformer 路径
Quasar 包含一个 Loop Transformer 执行路径。
其思想是复用解码器堆栈进行多次传递,增加有效计算深度,而无需将每个参数复制到更深的模型中。
当前检查点配置保守:
num_loops: 1
use_looped_injection: false
这意味着 Quasar-Preview 默认以单循环模式运行。
循环机制仍是架构代码的一部分,可以在未来的 Quasar 配置中启用。
当启用循环注入时,Quasar 会保留输入嵌入流的一个锚点快照,通常称为 P,并在循环执行期间将其注入回隐藏状态。
这使后续循环传递能够获得原始 token 流的稳定参考。
预期的未来循环路径是:
Token IDs
|
v
嵌入层
|
+--> 锚点 P 快照
|
v
解码器堆栈
|
v
循环传递 1
|
+--> 注入门控锚点 P
|
v
循环传递 2 / 未来传递
|
v
最终隐藏状态
注入门初始化为接近零,以便模型能够安全适应,而不是突然改变行为。
这为 Quasar 提供了一条通往更深入有效推理的路径,同时保持参数数量可控。
核心数据流
Token IDs
|
v
Token 嵌入
|
+--> 可选的锚点 P 快照
|
v
早期 Transformer 块
层 0-3
|
v
混合 Quasar 块
层 4-19
|
+--> GQA 注意力路径
|
+--> Quasar 循环/线性路径
|
+--> Raven 槽位记忆路径
|
+--> GLA 循环路径
|
v
混合加 / 分支合并
|
v
可选的循环注入 / 下一循环
|
v
RMSNorm
|
v
LM Head
|
v
下一个 token 的 logits
混合层组成
活跃的混合层为:
4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19
当前的逐层分支循环为:
quasar -> raven -> quasar -> quasar -> gla
在整个混合堆栈中,这给出了:
- Quasar 分支: 10 层
- Raven 分支: 3 层
- GLA 分支: 3 层
这种设计使 Quasar 成为主导分支,同时为模型提供有针对性的循环和槽位记忆路径。
Quasar + GLA
GLA 通过捆绑的 Flash Linear Attention 堆栈使用。
GLA 分支的目标是为 Quasar 提供一条快速的循环序列混合路径,在长序列长度上比完全密集注意力更便宜。
当前的 GLA 相关配置:
hybrid_gla_enabled: true
hybrid_gla_expand_k: 1.0
hybrid_gla_expand_v: 1.0
hybrid_use_short_conv: false
GLA 在此处并非作为独立模型使用。
它是 Quasar 混合层内部的一个分支。
Raven 设计
Raven 被包含为一个槽位路由的循环注意力分支。
当前 Raven 配置:
hybrid_raven_enabled: true
hybrid_raven_slots: 64
hybrid_raven_topk: 32
hybrid_raven_decay_type: Mamba2
Raven 通过固定数量的循环记忆槽位路由隐藏状态。
在此检查点中:
- 该分支有 64 个记忆槽位
- 它选择 top-32 路由
- 它使用 Mamba2 风格的衰减
Raven 为 Quasar 提供了一条类似记忆的路径,序列信息可以压缩到路由循环状态中,而不仅仅依赖密集注意力。
Engram 设计
Engram 是 Quasar 的条件性 n-gram 记忆模块。
它包含在资源库中,文件名为 engram.py,支持以下功能:
- n-gram 阶数
[2, 3] - 8 个 Engram 头
- 可配置的记忆槽位
- Triton 哈希表查找
- 门控投影回到残差流
当前 Engram 配置:
engram_slots: 2,000,000
engram_dim: 512
engram_ngram_orders: [2, 3]
engram_num_heads: 8
engram_residual_scale: 0.01
engram_lr_multiplier: 5.0
engram_layers: []
engram_layers 当前为空。
这意味着 Engram 被包含且可加载,但在 Quasar-Preview 中默认不活跃。
未来的 Quasar 版本可以在不改变基础模型形状的情况下,在选定层上启用 Engram。
Engram 旨在作为重复局部模式的快速回忆路径,而主模型则专注于推理和泛化。
安全 NoPE / DrOPE 上下文设计
当前检查点使用安全 NoPE 作为默认的长上下文配置。
当前上下文配置:
use_nope: true
long_context_mode: rope_short_nope_long
nope_after_position: 512
max_position_embeddings: 5,000,000
max_seq_length: 5,000,000
max_sequence_length: 5,000,000
rope_scaling: null
rope_theta: 10000
行为如下:
位置 0-511
-> 正常 RoPE
位置 512+
-> NoPE 恒等旋转
cos = 1
sin = 0
这是一种用于位置扩展的安全 DrOPE 风格阶段设计。
目标:
- 保留短上下文行为
- 避免到处拉伸 RoPE
- 避免分配巨大的 500 万 RoPE 表
- 暴露 500 万序列长度配置
- 为未来的长上下文训练运行做准备
重要提示:500 万上下文路径目前仅收到 不到 1B tokens 的长上下文扩展训练。
因此,尚不应预期高质量的 500 万 token 推理。
包含此设置是为了安全地暴露和继续训练长上下文路径。
配置快照
{
"model_type": "quasar_long",
"architectures": ["QuasarLongForCausalLM"],
"hidden_size": 2048,
"intermediate_size": 5120,
"num_hidden_layers": 20,
"num_attention_heads": 16,
"num_key_value_heads": 4,
"head_dim": 128,
"vocab_size": 157184,
"num_experts": 256,
"num_experts_per_tok": 8,
"num_shared_experts": 1,
"num_loops": 1,
"use_looped_injection": false,
"hybrid_attention_layers": [4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
"hybrid_branch_layout": "layerwise",
"hybrid_layerwise_cycle": ["quasar", "raven", "quasar", "quasar", "gla"],
"hybrid_replacement_mode": "add",
"hybrid_eval_mode": "hybrid_add",
"hybrid_quasar_en
相似文章
silx-ai/Quasar-Preview • Huggingface(5M上下文长度)
silx-ai发布了Quasar-Preview,这是一个具有500万token上下文长度的模型,可在Hugging Face上获取。
deepseek-ai/DeepSeek-V4-Pro-DSpark
DeepSeek 发布了其 V4 系列的预览版本,包括 DeepSeek-V4-Pro(1.6T 参数,49B 激活)和 DeepSeek-V4-Flash(284B 参数,13B 激活),两者均支持百万 Token 上下文,并采用混合注意力、流形约束超连接和 Muon 优化器。
deepseek-ai/DeepSeek-V4-Pro
DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。
Subquadratic AI 推出 SubQ-1.1-Small,一款采用 Smart Sparse Attention 的新模型
Subquadratic AI 推出 SubQ-1.1-Small,该模型利用 Smart Sparse Attention 在长达 1200 万 token 的上下文中实现近乎完美的长上下文检索,注意力计算量减少高达 1000 倍。它兼顾了长上下文优化与强大的通用推理能力,在 NIAH 和 RULER 等基准测试中优于基线模型。
Qwen3.6-Max-Preview
阿里巴巴发布旗舰模型 Qwen3.6-Max-Preview,专为智能体编程任务优化。