flashmemory

#flashmemory

@karminski3: 魔法! DeepSeekV4 上下文内存压缩到1/10! 大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需…

X AI KOLs Following ↗ · 2天前缓存

FlashMemory-DeepSeek-V4提出了一种名为Lookahead Sparse Attention（LSA）的新型推理范式，通过神经内存索引器主动预测未来上下文需求，将物理KV缓存占用压缩至全上下文基线的13.5%，同时平均精度提升0.6%。该方法采用解耦训练策略，无需加载基座模型即可独立训练索引器，显著降低训练成本。

0 人收藏 0 人点赞

flashmemory

@karminski3: 魔法! DeepSeekV4 上下文内存压缩到1/10! 大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需…

提交意见反馈