Subquadratic AI 推出 SubQ-1.1-Small，一款采用 Smart Sparse Attention 的新模型

Reddit r/singularity 2026/06/16 15:04 模型

sparse-attention long-context ai-model subquadratic efficiency enterprise-ai

摘要

Subquadratic AI 推出 SubQ-1.1-Small，该模型利用 Smart Sparse Attention 在长达 1200 万 token 的上下文中实现近乎完美的长上下文检索，注意力计算量减少高达 1000 倍。它兼顾了长上下文优化与强大的通用推理能力，在 NIAH 和 RULER 等基准测试中优于基线模型。

[https://x.com/alex\_whedon/status/2066894707259515124](https://x.com/alex_whedon/status/2066894707259515124) : \- 在‘大海捞针’测试中，对长达 1200 万 token 的上下文实现近乎完美的检索，注意力计算量减少近 1000 倍。 \- 兼顾长上下文优化与通用推理能力，在知识、编码以及非编码的企业智能体基准测试中均保持强劲性能。 \- 在 100 万 token 规模下，SubQ 1.1 Small 的计算量比密集注意力减少 64.5 倍，运行速度比 FlashAttention-2 快 56 倍（经独立验证）。

查看原文

查看缓存全文

缓存时间: 2026/06/16 15:35

# 介绍 SubQ 1.1 Small 来源：https://subq.ai/subq-1-1-small-technical-report 最难解决的企业级AI问题往往具有一个共同特点：它们需要对完整的工件进行推理——整个代码库、文档集合、合同、财务文件。多年来，业界通过构建检索流水线、分块策略和智能体脚手架来绕开这个问题——这些工具虽有用，但归根结底只是针对模型架构上下文限制的权宜之计。根本的约束在于注意力机制：其计算量随上下文长度呈二次方增长，使得对大型工件的直接推理成本高得难以承受。 SubQ 旨在消除这一约束。今天，我们发布了 SubQ 1.1 Small 的模型卡——这是我们次二次稀疏注意力（SSA）模型的第二次迭代，也是其中尺寸最小的版本。我们目前正在与部分设计合作伙伴部署 SubQ 1.1 Small，并计划在今年晚些时候推出更广泛的模型系列，涵盖从 2M 到 12M token 的规模。 ## 主要特性 - 在长达 12M token 的「大海捞针」测试中实现近乎完美的长上下文检索，同时注意力计算量减少近 1000 倍。 - 兼顾长上下文优化与通用推理能力，在知识、编程及非编程的企业智能体基准测试上保持强劲性能。 - 在 1M token 规模下，SubQ 1.1 Small 所需算力仅为密集注意力的 1/64.5，速度比 FlashAttention-2 快 56 倍。这些成果体现了 SSA 效率提升所带来的扩展优势。 ## 基准测试 SubQ 1.1 Small 在五个维度上进行了评估，涵盖长上下文检索、上下文长度泛化、知识、编程以及长周期智能体任务。 ## 长上下文检索与泛化我们选择了「大海捞针」（NIAH）和 Nvidia 的 RULER 测试，因为这两者共同检验模型能否在庞大的上下文中找到单个事实，以及能否在该上下文中连接线索。 NIAH 是一项精准度测试。它在长上下文中的特定深度放置一个可检索的事实，并要求模型准确返回该事实。SubQ 1.1 Small 在 1M、2M、6M 和 12M token 规模下均取得近乎完美的得分。尽管模型主要在 1M token 上训练，但在 12 倍长度的上下文中依然保持近乎完美的检索性能，即使注意力已被压缩至仅保留 0.13% 的关系。这种泛化能力是 SSA 基于内容相关性而非固定位置模式来路由注意力的直接结果。 RULER 是一项能力测试。其 13 项任务超越了单一事实查找，涵盖多跳变量追踪、频率提取以及跨完整上下文的聚合——这正是完整工件推理工作负载所需的核心能力。SubQ 1.1 Small 在 128K 规模下得分 99.12%。多任务检索 RULER（128K）单事实检索大海捞针（1M–12M） ## 通用知识与推理 SubQ 1.1 Small 在不妥协的前提下实现了长上下文优化与通用推理能力的平衡。GPQA Diamond 达 85.4%，略低于中端前沿模型，远高于较小尺寸模型。LiveCodeBench 的 pass@4 为 89.7%，接近绝对前沿水平。AutomationBench 金融任务得分为 13%，使 SubQ 1.1 Small 接近该基准上最强模型的表现，领先于中端及更小的基线模型。在此基准上，所有模型的绝对分数均较低。 | 基准测试 | SubQ 1.1 Small | GPT-5.5 | Opus 4.8 | Sonnet 4.6 | GPT-5.4-mini | GPT-5.4-nano | Haiku 4.5 | |------|----------------|---------|----------|------------|--------------|--------------|-----------| | 研究生级别科学<br>GPQA Diamond · pass@1 | 85.4 | 93.2 | 92 | 87.5 | 87.5 | 81.7 | 67.2 | | 智能体金融<br>AutomationBench | 13% | 18% | 16% | 8% | 0% | n/r | 3% | | 竞技编程<br>LiveCodeBench v6 · pass@4 | 89.7 | 92 | 92.2 | 88.9 | 78.6 | 78.6 | 69.7 | n/r = 模型提供商未报告结果 ## 效率 SSA 用学习到的稀疏公式替代了 O(n²) 的密集注意力计算，该公式随上下文长度线性扩展。随着上下文长度的增加，SSA 相对于密集注意力的优势愈发明显。在 1M token 规模下，SubQ 所需算力仅为密集注意力的 1/64.5，在单注意力层上的运行速度比 FlashAttention-2 快 56 倍。在实践中，这极大地改变了长上下文训练与推理的经济性。关于该机制及其与 FlashAttention、DeepSeek 稀疏注意力及循环架构的完整对比，请参阅 [技术报告](https://subq.ai/docs/subq-1-1-small-model-card.pdf)。计算量对比：在 1M token 规模下，密集 O(n²) 注意力每层需要 252 PFLOP，而 SubQ 的 SSA O(n) 注意力几乎保持平缓——计算量降低高达 64 倍。在 1M token 上下文中，SubQ 所需算力仅为密集注意力的 1/64.5，速度比 FlashAttention-2 快 56 倍。 ## 训练我们从现有的开放权重前沿模型开始，用 SSA 替换密集注意力，并通过分阶段的上下文扩展（262K、512K、1M、2M）构建长上下文能力，随后在大约一万亿 token 的天然长文本（书籍、文档、仓库级代码）上继续进行预训练。我们发现提升长上下文检索最有效的杠杆是长上下文继续预训练，而这正是得益于 SSA 算法的效率。12M 的泛化结果同时反映了两个因素：SSA 的选择标准与绝对位置无关，而可靠使用这种泛化能力则是在长数据训练中逐步形成的。此外，我们进行了超过一百次实验，跨越六到七代模型，以正确平衡长上下文与短上下文任务之间的能力。这种迭代之所以可能，正是因为 SSA 使我们团队能够将数百万 token 的实验作为常规流程而非罕见事件来执行，从而显著提高了研究循环的效率。 ## 用例 SubQ 专为需要对分布在工件中的信息进行推理而不进行碎片化处理的工作负载而设计。以下是我们初步研究中的几个用例： - **金融分析与尽职调查。** 申报文件、财报、合同及内部记录只有在组合起来时才有意义。SubQ 对整个集合进行推理，而不是孤立地总结每份文档。 - **法律与合同工作。** 合同可能在第 2 页定义一个术语，在第 12 页进行限定，并在第 46 页提出例外。检索能找到句子，但会丢失关系。SubQ 能容纳整份文档并直接进行跨文档推理。 - **软件工程。** 代码库将逻辑分布在文件、模块和依赖项中，短上下文模型无法同时容纳所有这些信息。SubQ 将整个仓库加载到一个上下文窗口中，从而在一次处理中实现架构级推理、跨文件重构和依赖追踪。我们相信，长上下文模型在编程中的规划、审查和长周期记忆方面将具有重要价值。 ## 下一步计划我们将在未来几周内与第一批设计合作伙伴启动合作，并在本季度内进行更广泛的推广，年底前发布通用模型。

Subquadratic AI 推出 SubQ-1.1-Small，一款采用 Smart Sparse Attention 的新模型

相似文章

MiniMax 稀疏注意力

MiniMax Sparse Attention：百万令牌上下文（GitHub 仓库）

@rohanpaul_ai: 相当惊人，MiniMax Sparse Attention 在100万token时将注意力计算量减少28.4倍，预填充速度提升14.2倍，以及…

@askalphaxiv: "MiniMax Sparse Attention" Minimax 的这篇论文向 GQA 添加了一个微小的索引分支，用于为每组选择 top k 个 KV 块……

当进一步推理无益时停止：推理模型中的注意力状态自适应生成

提交意见反馈