@no_stp_on_snek: https://subq.mildlyconcerning.com

X AI KOLs Timeline 2026/05/26 13:51 新闻

ai-claims long-context skepticism subq controversy deepseek flash-attention

摘要

本文批判性地分析了subQ长上下文AI技术的声明和时间线，指出了原始公告中的不一致之处和撤回内容。

@Hesamation https://t.co/5ns8Xe5rhJ

查看原文

查看缓存全文

缓存时间: 2026/05/27 07:20

@Hesamation https://t.co/5ns8Xe5rhJ — # 揭秘 SubQ —— 实用指南
来源：https://subq.mildlyconcerning.com/
田野笔记 / v.01
更新日期：持续更新

时间线——声明与收回 (https://subq.mildlyconcerning.com/#timeline)
核心公告及关键后续 (https://subq.mildlyconcerning.com/#announcement)
架构与方法 (SSA) (https://subq.mildlyconcerning.com/#architecture)
长上下文经济学 (https://subq.mildlyconcerning.com/#longcontext)
工作负载与性能 (https://subq.mildlyconcerning.com/#workloads)
对比 (DeepSeek, FA4) (https://subq.mildlyconcerning.com/#comparisons)
实现与基础设施 (https://subq.mildlyconcerning.com/#infra)
开源与未来 (https://subq.mildlyconcerning.com/#future)
权威参考资料 (https://subq.mildlyconcerning.com/#resources)
外部报道与分析 (https://subq.mildlyconcerning.com/#coverage)
不一致之处——博客 vs. X (https://subq.mildlyconcerning.com/#discrepancies)
Claude 审计——公开训练工件 (https://subq.mildlyconcerning.com/#claude-audit)

时间线——声明与收回

声明	日期	修改日期	状态/备注
从零开始的前沿模型	2026-05-05	2026-05-07	已修正：降级为将来时（“we will get there”）
生产模型的开源发布	2026-05-05	2026-05-07	已反转：“This model won’t be open-source”
52× FlashAttention 加速——标题范围	2026-05-05	2026-05-05	已修正：仅预填充阶段，与 B200 上的 FA2 对比
基础模型身份（移植了哪些开放权重）	2026-05-05	2026-05-12	拒绝回答：5月7日回避问题；5月12日明确拒绝：“We won’t share many details about the params, base, and training.”
全面的模型卡	2026-05-05	2026-05-14	范围缩小并推迟：5月12日 X 回复：“We won’t share many details about the params, base, and training”（范围缩小）。5月14日 X 回复关于“promised this week”截止日期：“Candidly, we may take a little bit longer, as we are working on some cool capabilities we want to be able to showcase.”（时间推迟）。
模型卡中的第三方验证	2026-05-07	2026-05-11	已发布（范围有限）：Appen Ltd 8页技术简报已交付。独立性声明披露了 API、认证密钥、算法代码审查与并排测试访问权限。“完整报告可应要求提供”（需签署 NDA）。
Beta 访问（早期访问名单）	2026-05-05	—	未发布：超过 30,000 人注册；截至5月7日仍未开放。“Soon.”
公开发布时间表	2026-05-05	—	未发布：5月7日邮件：“firming up our release timeline.” 无具体日期。
与 DSA 的硬选择器效率数据	2026-05-05	2026-05-12	再次承诺：5月5日承诺“next week”；未兑现。5月12日再次承诺：“We will compare to NSA (DSA) next.”
MRCR 2-针/4-针/非1M 结果	2026-05-12	—	未发布：5月12日 X 回复：“We can follow up with the rest of MRCR. We have more benchmarks coming.”
困惑度 (PPL) 数据	2026-05-12	—	回避：5月12日 X 回复：“I am surprised on the request for perplexity, given how little it tells you and the dataset bias. We could maybe follow up with that.”
1200万 token 基准测试（标题声称的上下文窗口）	2026-05-05	2026-05-12	再次承诺：发布标题声称 12M 上下文。Appen 简报止于 1M。5月12日 X 回复“why benchmark at 1M, I thought the whole point was 12M?”：“12MM-token benchmarks coming next!”
SubQ 品牌模型（自有模型发布）	2026-05-12	—	已承诺：被问到“does this work with current models? Basically frontier labs can use subq for inference, right?” Whedon 于5月12日回复：“We are going to release our own models!”
通过 LayerLens Stratix 进行的持续评估	2026-05-14	—	已承诺：Whedon X 2026-05-14：“Results and future evaluations will be published publicly.” subq.ai 帖子：“Results coming soon at stratix.layerlens.ai.” 无具体日期。
解码阶段加速	2026-05-05	—	未发布：描述为稍后发货
技术论文 / arXiv 提交	2026-05-05	—	未发布：截至2026年5月7日，arXiv 上不可见
公开训练代码与内核	2026-05-05	2026-05-07	已反转：“We can only go so far”；未来开源被谨慎对待

初始声明于发布时

“Introducing subQ”——首个完全次二次前沿模型

将 SubQ 定位为“首个完全次二次前沿”模型。该框架解读为一种使用新颖架构从零训练的前沿级模型。

2026-05-07 修改·修正为将来时

“Correct. We will get there on the from-scratch!”

回复一份将 SubQ 描述为在开放权重基础上进行 DSA 变体改造，并叠加 CPT/SFT/RL 的总结，Whedon 回答：
“Correct. We will get there on the from-scratch!”
确认已发货的生产模型并非从零开始。

2026-05-05 声明·开源计划

首个 SubQ 模型的“开源计划”

发布日回复描述了公开计划的内容——权重、训练代码、内核——以及大致的时间顺序。

2026-05-07 修改·反转

“This model won’t be open-source”

回复 Greg Horvay：
“Unfortunately, this model won’t be open-source, but we do intend to contribute to the open-source community.”
关于透露改进的后续：“We are getting pressure on this, and we can only go so far. However, we have better things coming, so we can maybe open-source the old things over time, or we can open-source some of our lessons/data/tools.”

2026-05-05 声明·52× FlashAttention 加速

标题：“52× faster than FlashAttention”

发布标题将 52× 相对于 FlashAttention 的加速作为一项关键性能数字框架，在公告文章中未作范围限定。

2026-05-05 修改·同日澄清

52× 仅适用于预填充，对比 FA2；解码加速稍后发货

回复 Martin Shkreli，Whedon 澄清 52× 数字是在 B200 上针对 FlashAttention 2 测量的预填充阶段加速。解码阶段加速描述为在后续版本中发布。

2026-05-05 声明·新颖架构，前沿模型

前沿模型，“Subquadratic Sparse Attention”新颖架构

发布定位。发布和博客未命名基础模型，框架解读为架构定义的前沿模型。

2026-05-05 修改·移植的开放权重

生产模型是移植的开放权重 + CPT/SFT/RL

Whedon 于5月5日澄清：
“Yes, that is not correct. We do CPT, SFT, and RL after porting weights over to a new architecture.”
随后于5月7日被具体问到使用哪个开放基础时，Whedon 回复：
“I have a few ideas about how to do this in the model card. I will make sure there is something side-by-side!”
基础身份仍未披露。

2026-05-14 声明·第三方持续评估

SubQ × LayerLens——宣布持续评估合作伙伴关系

Whedon X（原文）：
“We’ve partnered with @layerlens_ai to continuously evaluate SubQ across nearly 100 benchmarks and 200+ frontier models on Stratix… Results and future evaluations will be published publicly.”
subq.ai 博客文章将此次合作定义为“独立评估层”。公告中未说明发布日期，也未披露商业条款或先前关系。

Alex Whedon 在 X 上的主要 SubQ 公告帖子

核心公告·视频

公告帖子

最初启动一切的帖子，包含发布视频。对话 ID 锚点——大多数回复都集中在此。
x.com/alex_whedon/status/2051663268…↗ (https://x.com/alex_whedon/status/2051663268704636937)

SubQ 早期访问公告帖子

早期访问与代理链接

如何实际使用该产品——早期访问公告加上代理端点。
x.com/alex_whedon/status/2051663274…↗ (https://x.com/alex_whedon/status/2051663274027225540)

技术博客帖子在 X 上公告

最重要·技术

技术博客帖子公告

理解产品最有用的单篇帖子。由 Alex 在多个线程中链接和转发——为提供背景，下方包含重复。

回复 Martin Shkreli——52x 是预填充速度

回复 Martin Shkreli

52× 预填充/解码澄清

在质疑性提问下，锁定加速数字究竟指的是什么——预填充、解码还是两者。
status/2051686740…↗ (https://x.com/alex_whedon/status/2051686740033699912)

回复 Vincent——模型卡下周发布

架构细节

模型卡与博客细节

指向模型卡，以及关于 SSA 如何在技术文章中描述的内联细节。
status/2051702531…↗ (https://x.com/alex_whedon/status/2051702531076547070)

回复 Arthur——动态选择 token 关系

回复 Arthur·长距离依赖

召回与选择器机制

选择器如何选择要关注的 token，以及如何在长上下文中保持召回——回答一个长距离依赖问题。
status/2051719125…↗ (https://x.com/alex_whedon/status/2051719125207072823)

回复 Faruk Guney——Subquadratic Sparse Attention 是我们创建的一个独特变体

定位

SSA 避免了常见的权衡

卖点：SSA 获得长上下文效率，而不像其他稀疏/线性方法那样付出质量代价。
status/2051700602…↗ (https://x.com/alex_whedon/status/2051700602019725545)

回复 toriset——稀疏注意力的线性形式，类似于 DeepSeek 但没有二次瓶颈

澄清

新颖的稀疏注意力——不是线性注意力

划清界限：SSA 是具有新颖选择的稀疏注意力，不是线性注意力变体。对于任何在头脑中与 Mamba / RWKV 等对标的人来说很重要。
status/2051719585…↗ (https://x.com/alex_whedon/status/2051719585301233965)

Whedon: 我们已经做了 FA3. FA3 在 B200 上相对于 FA2 不提供加速。FA4 在望。后续：是的，FA3 专门为 Hopper 芯片构建，所以在 Blackwell 上看不到加速。

回复·FA3 未用作基线

FA3 在 Blackwell B200 上相对于 FA2 不提供加速——CTO 声明

Whedon X 2026-05-12（原文）：
“We have done FA3. FA3 doesn’t provide a speedup relative to FA2 on B200s. FA4 is in sight, and we are looking at what gains we can capture from studying FA4 too.”
同日跟进（原文）：
“Yeah, FA3 is built for Hopper chips specifically, so you don’t see the speedup on Blackwells!”
独立验证：Dao-AILab/flash-attention issue #1853 记录 FA3 在 Blackwell (sm_100) 上出错：“FA3 is only supported on devices with compute capability >= 8 excluding 8.6 and 8.9 and Blackwell archs (>=10).” 确认了 Appen 简报中 FA2 基线的选择。

sdmat 询问 SubQ 真的是线性还是 N·K；Whedon 回复：N×K 时间，且与 SSM 不同，仍有显式检索

回复 sdmat·复杂度承认

N×K 时间，显式检索——内部 RAG 的承认

sdmat 问对了问题：如果 SubQ 是严格线性的，路由器在 N 上是 O(1) 每查询，并且逻辑上必须有一个类似于 SSM 的容量限制——只是从状态转移到了选择。那么“线性”在技术上是否是 N polylog N，或者对于这个区间来说是 N·K 大小？Whedon 回答：
“N*K time, and unlike SSMs, there is still explicit retrieval.”
一句话两个承认。首先，复杂度是 N×K，而不是在 N 上严格线性——sdmat 的框架是正确的。其次，架构有一个显式的检索/选择步骤跨越上下文。存储机制与 SSM 不同（选择的 token 与压缩状态），但相同的根本容量上限。只有当学习 K-token 选择被视为与学习 K-维状态压缩有本质区别时，“新颖架构”的框架才能生存。从容量理论的角度看，并非如此——它是内部化的 RAG。
status/2052170998…↗ (https://x.com/alex_whedon/status/2052170998150029337)

回复 nanou——当约束消失时，人们构建的东西会不同

流程影响

长上下文流程改变

论证为什么整个工作流程——不仅仅是单次推理——在长上下文足够廉价成为默认时会被重建。
status/2051668090…↗ (https://x.com/alex_whedon/status/2051668090812059925)

长上下文需求即将上升；其上的溢价正在下降

定价论点

长上下文需求与定价溢价

两句话的定价预测：随着工作流程转向假设廉价上下文，长上下文需求应上升，并且其上的溢价被压缩。
status/2051674857…↗ (https://x.com/alex_whedon/status/2051674857407164550)

回复 Poonam Soni——代理产品的单位经济学之前悄悄地颠倒。好吧，不再了。

回复 Poonam Soni

代理产品单位经济学

关于对代理产品的影响：1200万 token 下前沿价格的5%推翻了众多代理堆栈悄悄依赖的假设。Alex 自己的框架——“quietly upside down. Well, not anymore.”
status/2051668955…↗ (https://x.com/alex_whedon/status/2051668955564298710)

回复 Rob Parker 于5月7日——确认该模型旨在作为即插即用的代理 LLM 替代品

回复·代理即插即用

即插即用的代理定位

直接被问及 SubQ 模型是否具有代理能力，可作为当前 LLM 的即插即用替代品，Whedon 用一个词回答：
“Yes.”
一个自信的承诺，在模型卡、权重或除发布表 SWE-Bench 数字之外的任何代理特定评估发布之前做出。
status/2052454133…↗ (https://x.com/alex_whedon/status/2052454133676826766)

回复 Linus Ekenstam——历史上偏移的工作负载

质量机制

偏移与退化工作负载

一类长时间运行/长上下文任务，其中标准注意力质量开始偏移——Alex 认为 SSA 在这些任务上表现良好。
status/2051673396…↗ (https://x.com/alex_whedon/status/2051673396728180974)

回复 Jas Oberoi——与 FlashAttention 对比是将标准设定得更高，而不是更低

回复 Jas Oberoi

FlashAttention 作为更高标准

关于为何要对比 FA：稀疏理论上减少 FLOPs，但实现的加速通常较低——有时甚至为负。与 FA 对比迫使比较是关于真实的、测量的性能。
status/2051861776…↗ (https://x.com/alex_whedon/status/2051861776455602368)

回复 Pratyush Tiwari——FA4 在基准测试完成时尚未发布；集成正在进行中

回复 Pratyush Tiwari

FA4 集成进行中

关于为什么比较使用 B200 上的 FlashAttention-2 而不是更新版本：基准测试运行时 FA4 尚未发布。FA4 的改进正在被集成到推理堆栈中。
status/2051771504…↗ (https://x.com/alex_whedon/status/2051771504673587612)

SubQ 官方基准对比表——SWE-Bench, RULER, MRCR v2 与 Gemini 3.1 Pro, Opus 4.6, Opus 4.7, GPT-5.4, GPT-5.5

公司来源·已发布对比

SubQ 官方基准表

subq.ai 上的对比表。SubQ 1M-Preview 与 Gemini 3.1 Pro, Opus 4.6/4.7, GPT-5.4/5.5 在 SWE-Bench Verified, RULER@128K, 和 MRCR v2 上进行对比。值得注意的是：Opus 4.6 在 MRCR v2 上得分高于 SubQ (78.3 vs. 65.9)——一个在发布沟通中未出现的对比对象。
subq.ai↗ (https://subq.ai/)

回复 Stella Biderman——Light DSA，动态选择的 token 关系，但没有闪电索引器的高开销

回复 Stella Biderman

DSA——相同思路，更低成本

关于机制如何工作：动态选择的 token 关系，像 Light DSA——但没有使 DeepSeek 变体二次的闪电索引器的高开销。
status/2051784892…↗ (https://x.com/alex_whedon/status/2051784892896153945)

相似文章

@Hesamation: 还记得这个吗？20天前，SubQ声称已开发出一个拥有12M上下文窗口、比Opus便宜95%、且智能水平相当的模型……

X AI KOLs Timeline

SubQ声称开发了一款突破性模型，拥有12M上下文窗口，成本比Opus降低95%，但在承诺发布论文和模型卡后却未兑现，引发了对是否骗局或不当行为的强烈怀疑。

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

X AI KOLs Following

使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈，在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型（0.659）相竞争的结果（0.601-0.688），表明开源权重方法已接近达到同等水平。

Jqwik反AI事件

Lobsters Hottest

jqwik的创建者Johannes Link解释了他向项目中添加日志代码的决定，以此作为对超大规模生成式AI和智能编码的抗议，详细说明了他的伦理异议以及由此引发的争议。

@mark_k: 关于DeepSeek AI（@deepseek_ai）的一篇引人入胜且非常深刻的分析文章。你绝对猜不到他们的策略是什么……