@MaxForAI: 我同意Andrew的观点,内存效率方面即将迎来重大突破,这个事情其实是Infra这边努力了很久的方向。 并且已经有了很大的成果,比如说:缓存命中。 DeepSeek早在硬盘KV Cache落地后,就把缓存命中的输入价格砍到未命中价格的1/…

X AI KOLs Timeline 新闻

摘要

技术专家讨论内存效率即将迎来的重大突破,提及DeepSeek通过KV缓存优化已将缓存命中输入价格降至未命中价格的1/10到1/50,并透露OpenAI工程师利用多项优化技术将推理成本削减一半以上。

我同意Andrew的观点,内存效率方面即将迎来重大突破,这个事情其实是Infra这边努力了很久的方向。 并且已经有了很大的成果,比如说:缓存命中。 DeepSeek早在硬盘KV Cache落地后,就把缓存命中的输入价格砍到未命中价格的1/10到1/50,本质上就是靠KV Cache方向的持续优化才敢这么定价,这在当时已经是行业内公开的先例。 如果Andrew说的这个从OpenAI分拆出来的团队真的做出了新的内存效率突破,大概率也是在这条路上走得更远——毕竟便宜和好用,最后都得靠底层架构买单。 同时我也看到了The Information的报道,一位知情人士透露,本月早些时候,OpenAI工程师向部分同事表示,依托几项全新研发的优化技术,他们找到了一套方案,能将模型推理成本削减一半以上。 工程师将这套新技术应用于没有免费或付费账户的访客使用 ChatGPT的场景后,一度把所需英伟达图形处理器(GPU)数量压至仅数百个。
查看原文
查看缓存全文

缓存时间: 2026/07/01 08:02

我同意Andrew的观点,内存效率方面即将迎来重大突破,这个事情其实是Infra这边努力了很久的方向。

并且已经有了很大的成果,比如说:缓存命中。

DeepSeek早在硬盘KV Cache落地后,就把缓存命中的输入价格砍到未命中价格的1/10到1/50,本质上就是靠KV Cache方向的持续优化才敢这么定价,这在当时已经是行业内公开的先例。

如果Andrew说的这个从OpenAI分拆出来的团队真的做出了新的内存效率突破,大概率也是在这条路上走得更远——毕竟便宜和好用,最后都得靠底层架构买单。

同时我也看到了The Information的报道,一位知情人士透露,本月早些时候,OpenAI工程师向部分同事表示,依托几项全新研发的优化技术,他们找到了一套方案,能将模型推理成本削减一半以上。

工程师将这套新技术应用于没有免费或付费账户的访客使用 ChatGPT的场景后,一度把所需英伟达图形处理器(GPU)数量压至仅数百个。

Andrew Curran (@AndrewCurran_): I’m posting this prediction now so I can quote it later. There has been a significant breakthrough in architecture - specifically around memory efficiency - not by one of the big labs, but by a team that was spun out of OpenAI (not SSI). They will probably announce it soon.

相似文章

@karminski3: 魔法! DeepSeekV4 上下文内存压缩到1/10! 大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需…

X AI KOLs Following

FlashMemory-DeepSeek-V4提出了一种名为Lookahead Sparse Attention(LSA)的新型推理范式,通过神经内存索引器主动预测未来上下文需求,将物理KV缓存占用压缩至全上下文基线的13.5%,同时平均精度提升0.6%。该方法采用解耦训练策略,无需加载基座模型即可独立训练索引器,显著降低训练成本。

@seclink: 中国初创公司DeepSeek周五宣布,其DeepSeek-V4-Pro API的75%折扣优惠将永久生效,价格低至每百万缓存输入令牌0.003625美元,输出0.87美元——比OpenAI的GPT-5.5便宜约34倍。 这款拥有1.6万亿…

X AI KOLs Following

DeepSeek宣布其V4-Pro API永久降价75%,每百万缓存输入令牌仅0.003625美元,输出0.87美元,比OpenAI的GPT-5.5便宜约34倍。该模型拥有1.6万亿参数但仅需490亿活跃参数,支持100万令牌上下文,在编码和推理基准测试中表现领先。