@MaxForAI: 我同意Andrew的观点，内存效率方面即将迎来重大突破，这个事情其实是Infra这边努力了很久的方向。并且已经有了很大的成果，比如说：缓存命中。 DeepSeek早在硬盘KV Cache落地后，就把缓存命中的输入价格砍到未命中价格的1/…

X AI KOLs Timeline 2026/07/01 04:12 新闻

摘要

技术专家讨论内存效率即将迎来的重大突破，提及DeepSeek通过KV缓存优化已将缓存命中输入价格降至未命中价格的1/10到1/50，并透露OpenAI工程师利用多项优化技术将推理成本削减一半以上。

我同意Andrew的观点，内存效率方面即将迎来重大突破，这个事情其实是Infra这边努力了很久的方向。并且已经有了很大的成果，比如说：缓存命中。 DeepSeek早在硬盘KV Cache落地后，就把缓存命中的输入价格砍到未命中价格的1/10到1/50，本质上就是靠KV Cache方向的持续优化才敢这么定价，这在当时已经是行业内公开的先例。如果Andrew说的这个从OpenAI分拆出来的团队真的做出了新的内存效率突破，大概率也是在这条路上走得更远——毕竟便宜和好用，最后都得靠底层架构买单。同时我也看到了The Information的报道，一位知情人士透露，本月早些时候，OpenAI工程师向部分同事表示，依托几项全新研发的优化技术，他们找到了一套方案，能将模型推理成本削减一半以上。工程师将这套新技术应用于没有免费或付费账户的访客使用 ChatGPT的场景后，一度把所需英伟达图形处理器(GPU)数量压至仅数百个。

查看原文

查看缓存全文

缓存时间: 2026/07/01 08:02

我同意Andrew的观点，内存效率方面即将迎来重大突破，这个事情其实是Infra这边努力了很久的方向。

并且已经有了很大的成果，比如说：缓存命中。

DeepSeek早在硬盘KV Cache落地后，就把缓存命中的输入价格砍到未命中价格的1/10到1/50，本质上就是靠KV Cache方向的持续优化才敢这么定价，这在当时已经是行业内公开的先例。

如果Andrew说的这个从OpenAI分拆出来的团队真的做出了新的内存效率突破，大概率也是在这条路上走得更远——毕竟便宜和好用，最后都得靠底层架构买单。

同时我也看到了The Information的报道，一位知情人士透露，本月早些时候，OpenAI工程师向部分同事表示，依托几项全新研发的优化技术，他们找到了一套方案，能将模型推理成本削减一半以上。

工程师将这套新技术应用于没有免费或付费账户的访客使用 ChatGPT的场景后，一度把所需英伟达图形处理器(GPU)数量压至仅数百个。

Andrew Curran (@AndrewCurran_): I’m posting this prediction now so I can quote it later. There has been a significant breakthrough in architecture - specifically around memory efficiency - not by one of the big labs, but by a team that was spun out of OpenAI (not SSI). They will probably announce it soon.

相似文章

@karminski3: 魔法! DeepSeekV4 上下文内存压缩到1/10! 大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需…

X AI KOLs Following

FlashMemory-DeepSeek-V4提出了一种名为Lookahead Sparse Attention（LSA）的新型推理范式，通过神经内存索引器主动预测未来上下文需求，将物理KV缓存占用压缩至全上下文基线的13.5%，同时平均精度提升0.6%。该方法采用解耦训练策略，无需加载基座模型即可独立训练索引器，显著降低训练成本。

@QingQ77: 一个专为 DeepSeek API 前缀缓存机制设计的终端 AI 编程代理，通过缓存优先的架构在长会话中保持超低 token 成本。 https://github.com/esengine/DeepSeek-Reasonix… Reaso…

X AI KOLs Timeline

Reasonix 是一个专为 DeepSeek API 前缀缓存机制设计的终端 AI 编程代理，通过缓存优先架构在长会话中实现超低 token 成本。实测 4.35 亿输入 token 仅花费约 12 美元，缓存命中率 99.82%。

@seclink: 中国初创公司DeepSeek周五宣布，其DeepSeek-V4-Pro API的75%折扣优惠将永久生效，价格低至每百万缓存输入令牌0.003625美元，输出0.87美元——比OpenAI的GPT-5.5便宜约34倍。这款拥有1.6万亿…

X AI KOLs Following

DeepSeek宣布其V4-Pro API永久降价75%，每百万缓存输入令牌仅0.003625美元，输出0.87美元，比OpenAI的GPT-5.5便宜约34倍。该模型拥有1.6万亿参数但仅需490亿活跃参数，支持100万令牌上下文，在编码和推理基准测试中表现领先。

@ZeroZ_JQ: https://x.com/ZeroZ_JQ/status/2066380476970103028

X AI KOLs Timeline

文章从工程视角重新定义KV Cache，指出它不仅仅是推理优化技术，更是在Agent时代成为复用已计算结果的Runtime基础设施，帮助AI避免重复思考。

@mark_k: 关于DeepSeek AI（@deepseek_ai）的一篇引人入胜且非常深刻的分析文章。你绝对猜不到他们的策略是什么……

X AI KOLs Timeline

对DeepSeek AI非常规策略的分析：优先采用激进架构创新（MoE、MLA、engram、mHC），大幅降低计算和内存需求，从而实现长期布局，构建一个10万亿人民币的中国AI硬件生态系统，并追求1万亿美元估值。

相似文章

@karminski3: 魔法! DeepSeekV4 上下文内存压缩到1/10! 大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需…

@QingQ77: 一个专为 DeepSeek API 前缀缓存机制设计的终端 AI 编程代理，通过缓存优先的架构在长会话中保持超低 token 成本。 https://github.com/esengine/DeepSeek-Reasonix… Reaso…

@seclink: 中国初创公司DeepSeek周五宣布，其DeepSeek-V4-Pro API的75%折扣优惠将永久生效，价格低至每百万缓存输入令牌0.003625美元，输出0.87美元——比OpenAI的GPT-5.5便宜约34倍。 这款拥有1.6万亿…

@ZeroZ_JQ: https://x.com/ZeroZ_JQ/status/2066380476970103028

@mark_k: 关于DeepSeek AI（@deepseek_ai）的一篇引人入胜且非常深刻的分析文章。你绝对猜不到他们的策略是什么……

提交意见反馈

@seclink: 中国初创公司DeepSeek周五宣布，其DeepSeek-V4-Pro API的75%折扣优惠将永久生效，价格低至每百万缓存输入令牌0.003625美元，输出0.87美元——比OpenAI的GPT-5.5便宜约34倍。这款拥有1.6万亿…