@no_stp_on_snek: https://subq.mildlyconcerning.com

X AI KOLs Timeline 新闻

摘要

本文批判性地分析了subQ长上下文AI技术的声明和时间线,指出了原始公告中的不一致之处和撤回内容。

@Hesamation https://t.co/5ns8Xe5rhJ
查看原文
查看缓存全文

缓存时间: 2026/05/27 07:20

@Hesamation https://t.co/5ns8Xe5rhJ — # 揭秘 SubQ —— 实用指南
来源:https://subq.mildlyconcerning.com/
田野笔记 / v.01
更新日期:持续更新

目录

  • 时间线——声明与收回 (https://subq.mildlyconcerning.com/#timeline)
  • 核心公告及关键后续 (https://subq.mildlyconcerning.com/#announcement)
  • 架构与方法 (SSA) (https://subq.mildlyconcerning.com/#architecture)
  • 长上下文经济学 (https://subq.mildlyconcerning.com/#longcontext)
  • 工作负载与性能 (https://subq.mildlyconcerning.com/#workloads)
  • 对比 (DeepSeek, FA4) (https://subq.mildlyconcerning.com/#comparisons)
  • 实现与基础设施 (https://subq.mildlyconcerning.com/#infra)
  • 开源与未来 (https://subq.mildlyconcerning.com/#future)
  • 权威参考资料 (https://subq.mildlyconcerning.com/#resources)
  • 外部报道与分析 (https://subq.mildlyconcerning.com/#coverage)
  • 不一致之处——博客 vs. X (https://subq.mildlyconcerning.com/#discrepancies)
  • Claude 审计——公开训练工件 (https://subq.mildlyconcerning.com/#claude-audit)

时间线——声明与收回

声明日期修改日期状态/备注
从零开始的前沿模型2026-05-052026-05-07已修正:降级为将来时(“we will get there”)
生产模型的开源发布2026-05-052026-05-07已反转:“This model won’t be open-source”
52× FlashAttention 加速——标题范围2026-05-052026-05-05已修正:仅预填充阶段,与 B200 上的 FA2 对比
基础模型身份(移植了哪些开放权重)2026-05-052026-05-12拒绝回答:5月7日回避问题;5月12日明确拒绝:“We won’t share many details about the params, base, and training.”
全面的模型卡2026-05-052026-05-14范围缩小并推迟:5月12日 X 回复:“We won’t share many details about the params, base, and training”(范围缩小)。5月14日 X 回复关于“promised this week”截止日期:“Candidly, we may take a little bit longer, as we are working on some cool capabilities we want to be able to showcase.”(时间推迟)。
模型卡中的第三方验证2026-05-072026-05-11已发布(范围有限):Appen Ltd 8页技术简报已交付。独立性声明披露了 API、认证密钥、算法代码审查与并排测试访问权限。“完整报告可应要求提供”(需签署 NDA)。
Beta 访问(早期访问名单)2026-05-05未发布:超过 30,000 人注册;截至5月7日仍未开放。“Soon.”
公开发布时间表2026-05-05未发布:5月7日邮件:“firming up our release timeline.” 无具体日期。
与 DSA 的硬选择器效率数据2026-05-052026-05-12再次承诺:5月5日承诺“next week”;未兑现。5月12日再次承诺:“We will compare to NSA (DSA) next.”
MRCR 2-针/4-针/非1M 结果2026-05-12未发布:5月12日 X 回复:“We can follow up with the rest of MRCR. We have more benchmarks coming.”
困惑度 (PPL) 数据2026-05-12回避:5月12日 X 回复:“I am surprised on the request for perplexity, given how little it tells you and the dataset bias. We could maybe follow up with that.”
1200万 token 基准测试(标题声称的上下文窗口)2026-05-052026-05-12再次承诺:发布标题声称 12M 上下文。Appen 简报止于 1M。5月12日 X 回复“why benchmark at 1M, I thought the whole point was 12M?”:“12MM-token benchmarks coming next!”
SubQ 品牌模型(自有模型发布)2026-05-12已承诺:被问到“does this work with current models? Basically frontier labs can use subq for inference, right?” Whedon 于5月12日回复:“We are going to release our own models!”
通过 LayerLens Stratix 进行的持续评估2026-05-14已承诺:Whedon X 2026-05-14:“Results and future evaluations will be published publicly.” subq.ai 帖子:“Results coming soon at stratix.layerlens.ai.” 无具体日期。
解码阶段加速2026-05-05未发布:描述为稍后发货
技术论文 / arXiv 提交2026-05-05未发布:截至2026年5月7日,arXiv 上不可见
公开训练代码与内核2026-05-052026-05-07已反转:“We can only go so far”;未来开源被谨慎对待

初始声明于发布时

“Introducing subQ”——首个完全次二次前沿模型

将 SubQ 定位为“首个完全次二次前沿”模型。该框架解读为一种使用新颖架构从零训练的前沿级模型。

2026-05-07 修改·修正为将来时

“Correct. We will get there on the from-scratch!”

回复一份将 SubQ 描述为在开放权重基础上进行 DSA 变体改造,并叠加 CPT/SFT/RL 的总结,Whedon 回答:
“Correct. We will get there on the from-scratch!”
确认已发货的生产模型并非从零开始。

2026-05-05 声明·开源计划

首个 SubQ 模型的“开源计划”

发布日回复描述了公开计划的内容——权重、训练代码、内核——以及大致的时间顺序。

2026-05-07 修改·反转

“This model won’t be open-source”

回复 Greg Horvay:
“Unfortunately, this model won’t be open-source, but we do intend to contribute to the open-source community.”
关于透露改进的后续:“We are getting pressure on this, and we can only go so far. However, we have better things coming, so we can maybe open-source the old things over time, or we can open-source some of our lessons/data/tools.”

2026-05-05 声明·52× FlashAttention 加速

标题:“52× faster than FlashAttention”

发布标题将 52× 相对于 FlashAttention 的加速作为一项关键性能数字框架,在公告文章中未作范围限定。

2026-05-05 修改·同日澄清

52× 仅适用于预填充,对比 FA2;解码加速稍后发货

回复 Martin Shkreli,Whedon 澄清 52× 数字是在 B200 上针对 FlashAttention 2 测量的预填充阶段加速。解码阶段加速描述为在后续版本中发布。

2026-05-05 声明·新颖架构,前沿模型

前沿模型,“Subquadratic Sparse Attention”新颖架构

发布定位。发布和博客未命名基础模型,框架解读为架构定义的前沿模型。

2026-05-05 修改·移植的开放权重

生产模型是移植的开放权重 + CPT/SFT/RL

Whedon 于5月5日澄清:
“Yes, that is not correct. We do CPT, SFT, and RL after porting weights over to a new architecture.”
随后于5月7日被具体问到使用哪个开放基础时,Whedon 回复:
“I have a few ideas about how to do this in the model card. I will make sure there is something side-by-side!”
基础身份仍未披露。

2026-05-14 声明·第三方持续评估

SubQ × LayerLens——宣布持续评估合作伙伴关系

Whedon X(原文):
“We’ve partnered with @layerlens_ai to continuously evaluate SubQ across nearly 100 benchmarks and 200+ frontier models on Stratix… Results and future evaluations will be published publicly.”
subq.ai 博客文章将此次合作定义为“独立评估层”。公告中未说明发布日期,也未披露商业条款或先前关系。

Alex Whedon 在 X 上的主要 SubQ 公告帖子

核心公告·视频

公告帖子

最初启动一切的帖子,包含发布视频。对话 ID 锚点——大多数回复都集中在此。
x.com/alex_whedon/status/2051663268…↗ (https://x.com/alex_whedon/status/2051663268704636937)

SubQ 早期访问公告帖子

早期访问与代理链接

如何实际使用该产品——早期访问公告加上代理端点。
x.com/alex_whedon/status/2051663274…↗ (https://x.com/alex_whedon/status/2051663274027225540)

技术博客帖子在 X 上公告

最重要·技术

技术博客帖子公告

理解产品最有用的单篇帖子。由 Alex 在多个线程中链接和转发——为提供背景,下方包含重复。

回复 Martin Shkreli——52x 是预填充速度

回复 Martin Shkreli

52× 预填充/解码澄清

在质疑性提问下,锁定加速数字究竟指的是什么——预填充、解码还是两者。
status/2051686740…↗ (https://x.com/alex_whedon/status/2051686740033699912)

回复 Vincent——模型卡下周发布

架构细节

模型卡与博客细节

指向模型卡,以及关于 SSA 如何在技术文章中描述的内联细节。
status/2051702531…↗ (https://x.com/alex_whedon/status/2051702531076547070)

回复 Arthur——动态选择 token 关系

回复 Arthur·长距离依赖

召回与选择器机制

选择器如何选择要关注的 token,以及如何在长上下文中保持召回——回答一个长距离依赖问题。
status/2051719125…↗ (https://x.com/alex_whedon/status/2051719125207072823)

回复 Faruk Guney——Subquadratic Sparse Attention 是我们创建的一个独特变体

定位

SSA 避免了常见的权衡

卖点:SSA 获得长上下文效率,而不像其他稀疏/线性方法那样付出质量代价。
status/2051700602…↗ (https://x.com/alex_whedon/status/2051700602019725545)

回复 toriset——稀疏注意力的线性形式,类似于 DeepSeek 但没有二次瓶颈

澄清

新颖的稀疏注意力——不是线性注意力

划清界限:SSA 是具有新颖选择的稀疏注意力,不是线性注意力变体。对于任何在头脑中与 Mamba / RWKV 等对标的人来说很重要。
status/2051719585…↗ (https://x.com/alex_whedon/status/2051719585301233965)

Whedon: 我们已经做了 FA3. FA3 在 B200 上相对于 FA2 不提供加速。FA4 在望。后续:是的,FA3 专门为 Hopper 芯片构建,所以在 Blackwell 上看不到加速。

回复·FA3 未用作基线

FA3 在 Blackwell B200 上相对于 FA2 不提供加速——CTO 声明

Whedon X 2026-05-12(原文):
“We have done FA3. FA3 doesn’t provide a speedup relative to FA2 on B200s. FA4 is in sight, and we are looking at what gains we can capture from studying FA4 too.”
同日跟进(原文):
“Yeah, FA3 is built for Hopper chips specifically, so you don’t see the speedup on Blackwells!”
独立验证:Dao-AILab/flash-attention issue #1853 记录 FA3 在 Blackwell (sm_100) 上出错:“FA3 is only supported on devices with compute capability >= 8 excluding 8.6 and 8.9 and Blackwell archs (>=10).” 确认了 Appen 简报中 FA2 基线的选择。

sdmat 询问 SubQ 真的是线性还是 N·K;Whedon 回复:N×K 时间,且与 SSM 不同,仍有显式检索

回复 sdmat·复杂度承认

N×K 时间,显式检索——内部 RAG 的承认

sdmat 问对了问题:如果 SubQ 是严格线性的,路由器在 N 上是 O(1) 每查询,并且逻辑上必须有一个类似于 SSM 的容量限制——只是从状态转移到了选择。那么“线性”在技术上是否是 N polylog N,或者对于这个区间来说是 N·K 大小?Whedon 回答:
“N*K time, and unlike SSMs, there is still explicit retrieval.”
一句话两个承认。首先,复杂度是 N×K,而不是在 N 上严格线性——sdmat 的框架是正确的。其次,架构有一个显式的检索/选择步骤跨越上下文。存储机制与 SSM 不同(选择的 token 与压缩状态),但相同的根本容量上限。只有当学习 K-token 选择被视为与学习 K-维状态压缩有本质区别时,“新颖架构”的框架才能生存。从容量理论的角度看,并非如此——它是内部化的 RAG。
status/2052170998…↗ (https://x.com/alex_whedon/status/2052170998150029337)

回复 nanou——当约束消失时,人们构建的东西会不同

流程影响

长上下文流程改变

论证为什么整个工作流程——不仅仅是单次推理——在长上下文足够廉价成为默认时会被重建。
status/2051668090…↗ (https://x.com/alex_whedon/status/2051668090812059925)

长上下文需求即将上升;其上的溢价正在下降

定价论点

长上下文需求与定价溢价

两句话的定价预测:随着工作流程转向假设廉价上下文,长上下文需求应上升,并且其上的溢价被压缩。
status/2051674857…↗ (https://x.com/alex_whedon/status/2051674857407164550)

回复 Poonam Soni——代理产品的单位经济学之前悄悄地颠倒。好吧,不再了。

回复 Poonam Soni

代理产品单位经济学

关于对代理产品的影响:1200万 token 下前沿价格的5%推翻了众多代理堆栈悄悄依赖的假设。Alex 自己的框架——“quietly upside down. Well, not anymore.”
status/2051668955…↗ (https://x.com/alex_whedon/status/2051668955564298710)

回复 Rob Parker 于5月7日——确认该模型旨在作为即插即用的代理 LLM 替代品

回复·代理即插即用

即插即用的代理定位

直接被问及 SubQ 模型是否具有代理能力,可作为当前 LLM 的即插即用替代品,Whedon 用一个词回答:
“Yes.”
一个自信的承诺,在模型卡、权重或除发布表 SWE-Bench 数字之外的任何代理特定评估发布之前做出。
status/2052454133…↗ (https://x.com/alex_whedon/status/2052454133676826766)

回复 Linus Ekenstam——历史上偏移的工作负载

质量机制

偏移与退化工作负载

一类长时间运行/长上下文任务,其中标准注意力质量开始偏移——Alex 认为 SSA 在这些任务上表现良好。
status/2051673396…↗ (https://x.com/alex_whedon/status/2051673396728180974)

回复 Jas Oberoi——与 FlashAttention 对比是将标准设定得更高,而不是更低

回复 Jas Oberoi

FlashAttention 作为更高标准

关于为何要对比 FA:稀疏理论上减少 FLOPs,但实现的加速通常较低——有时甚至为负。与 FA 对比迫使比较是关于真实的、测量的性能。
status/2051861776…↗ (https://x.com/alex_whedon/status/2051861776455602368)

回复 Pratyush Tiwari——FA4 在基准测试完成时尚未发布;集成正在进行中

回复 Pratyush Tiwari

FA4 集成进行中

关于为什么比较使用 B200 上的 FlashAttention-2 而不是更新版本:基准测试运行时 FA4 尚未发布。FA4 的改进正在被集成到推理堆栈中。
status/2051771504…↗ (https://x.com/alex_whedon/status/2051771504673587612)

SubQ 官方基准对比表——SWE-Bench, RULER, MRCR v2 与 Gemini 3.1 Pro, Opus 4.6, Opus 4.7, GPT-5.4, GPT-5.5

公司来源·已发布对比

SubQ 官方基准表

subq.ai 上的对比表。SubQ 1M-Preview 与 Gemini 3.1 Pro, Opus 4.6/4.7, GPT-5.4/5.5 在 SWE-Bench Verified, RULER@128K, 和 MRCR v2 上进行对比。值得注意的是:Opus 4.6 在 MRCR v2 上得分高于 SubQ (78.3 vs. 65.9)——一个在发布沟通中未出现的对比对象。
subq.ai↗ (https://subq.ai/)

回复 Stella Biderman——Light DSA,动态选择的 token 关系,但没有闪电索引器的高开销

回复 Stella Biderman

DSA——相同思路,更低成本

关于机制如何工作:动态选择的 token 关系,像 Light DSA——但没有使 DeepSeek 变体二次的闪电索引器的高开销。
status/2051784892…↗ (https://x.com/alex_whedon/status/2051784892896153945)

相似文章

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

X AI KOLs Following

使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈,在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型(0.659)相竞争的结果(0.601-0.688),表明开源权重方法已接近达到同等水平。

Jqwik反AI事件

Lobsters Hottest

jqwik的创建者Johannes Link解释了他向项目中添加日志代码的决定,以此作为对超大规模生成式AI和智能编码的抗议,详细说明了他的伦理异议以及由此引发的争议。