@MaxForAI: 我同意Andrew的观点,内存效率方面即将迎来重大突破,这个事情其实是Infra这边努力了很久的方向。 并且已经有了很大的成果,比如说:缓存命中。 DeepSeek早在硬盘KV Cache落地后,就把缓存命中的输入价格砍到未命中价格的1/…
摘要
技术专家讨论内存效率即将迎来的重大突破,提及DeepSeek通过KV缓存优化已将缓存命中输入价格降至未命中价格的1/10到1/50,并透露OpenAI工程师利用多项优化技术将推理成本削减一半以上。
查看缓存全文
缓存时间: 2026/07/01 08:02
我同意Andrew的观点,内存效率方面即将迎来重大突破,这个事情其实是Infra这边努力了很久的方向。
并且已经有了很大的成果,比如说:缓存命中。
DeepSeek早在硬盘KV Cache落地后,就把缓存命中的输入价格砍到未命中价格的1/10到1/50,本质上就是靠KV Cache方向的持续优化才敢这么定价,这在当时已经是行业内公开的先例。
如果Andrew说的这个从OpenAI分拆出来的团队真的做出了新的内存效率突破,大概率也是在这条路上走得更远——毕竟便宜和好用,最后都得靠底层架构买单。
同时我也看到了The Information的报道,一位知情人士透露,本月早些时候,OpenAI工程师向部分同事表示,依托几项全新研发的优化技术,他们找到了一套方案,能将模型推理成本削减一半以上。
工程师将这套新技术应用于没有免费或付费账户的访客使用 ChatGPT的场景后,一度把所需英伟达图形处理器(GPU)数量压至仅数百个。
Andrew Curran (@AndrewCurran_): I’m posting this prediction now so I can quote it later. There has been a significant breakthrough in architecture - specifically around memory efficiency - not by one of the big labs, but by a team that was spun out of OpenAI (not SSI). They will probably announce it soon.
相似文章
@karminski3: 魔法! DeepSeekV4 上下文内存压缩到1/10! 大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需…
FlashMemory-DeepSeek-V4提出了一种名为Lookahead Sparse Attention(LSA)的新型推理范式,通过神经内存索引器主动预测未来上下文需求,将物理KV缓存占用压缩至全上下文基线的13.5%,同时平均精度提升0.6%。该方法采用解耦训练策略,无需加载基座模型即可独立训练索引器,显著降低训练成本。
@QingQ77: 一个专为 DeepSeek API 前缀缓存机制设计的终端 AI 编程代理,通过缓存优先的架构在长会话中保持超低 token 成本。 https://github.com/esengine/DeepSeek-Reasonix… Reaso…
Reasonix 是一个专为 DeepSeek API 前缀缓存机制设计的终端 AI 编程代理,通过缓存优先架构在长会话中实现超低 token 成本。实测 4.35 亿输入 token 仅花费约 12 美元,缓存命中率 99.82%。
@seclink: 中国初创公司DeepSeek周五宣布,其DeepSeek-V4-Pro API的75%折扣优惠将永久生效,价格低至每百万缓存输入令牌0.003625美元,输出0.87美元——比OpenAI的GPT-5.5便宜约34倍。 这款拥有1.6万亿…
DeepSeek宣布其V4-Pro API永久降价75%,每百万缓存输入令牌仅0.003625美元,输出0.87美元,比OpenAI的GPT-5.5便宜约34倍。该模型拥有1.6万亿参数但仅需490亿活跃参数,支持100万令牌上下文,在编码和推理基准测试中表现领先。
@ZeroZ_JQ: https://x.com/ZeroZ_JQ/status/2066380476970103028
文章从工程视角重新定义KV Cache,指出它不仅仅是推理优化技术,更是在Agent时代成为复用已计算结果的Runtime基础设施,帮助AI避免重复思考。
@mark_k: 关于DeepSeek AI(@deepseek_ai)的一篇引人入胜且非常深刻的分析文章。你绝对猜不到他们的策略是什么……
对DeepSeek AI非常规策略的分析:优先采用激进架构创新(MoE、MLA、engram、mHC),大幅降低计算和内存需求,从而实现长期布局,构建一个10万亿人民币的中国AI硬件生态系统,并追求1万亿美元估值。