标签
MemRefine是一个基于LLM的框架,用于在固定存储预算下压缩长程智能体记忆,利用相似性进行候选配对,并由LLM裁判基于事实内容决定删除或合并,在基准测试中优于基于规则的基线。
FlashMemory-DeepSeek-V4提出了一种名为Lookahead Sparse Attention(LSA)的新型推理范式,通过神经内存索引器主动预测未来上下文需求,将物理KV缓存占用压缩至全上下文基线的13.5%,同时平均精度提升0.6%。该方法采用解耦训练策略,无需加载基座模型即可独立训练索引器,显著降低训练成本。
OmniMem 引入了一种面向流式音视频大模型的模态感知记忆分配与扰动感知选择策略,在长视频基准测试上相比压缩基线实现了2-4%的绝对准确率提升。
AURA-Mem 提出了一种恒定大小的机器人策略记忆,通过一个学习后的门控机制,仅在当前观测会改变下一步动作时才进行写入。它能够以显著更少的写入次数和恒定的显存消耗匹配基准精度,解决了长周期机器人任务中的内存瓶颈问题。
VideoMLA 用共享的低秩潜变量和解耦的 3D-RoPE 位置键替换了视频扩散模型中每个头的 KV 缓存,在 B200 上将每个 token 的 KV 内存降低了 92.7%,吞吐量提升了 1.23 倍,同时在 VBench 基准测试中保持了质量。
这篇论文提出了一个名为 Efficiency Frontier 的统一框架,将大模型上下文管理视为部署优化问题,联合建模任务表现、token 开销和预处理复用。在 5000 个 HotpotQA 实例上,部署优化可节省 25% 的 token 量,而记忆压缩在高精度场景下比全上下文便宜一半以上。
介绍效率前沿,一个用于优化LLM上下文管理中的成本和性能的统一框架,在HotpotQA上以可比较的性能实现了有效token使用量减少约25%。
WorldKV 是一个无需训练的框架,它检索并压缩键值缓存块,以在视频扩散世界生成中保持长期一致性,在匹配全记忆保真度的同时实现更高吞吐量。
一位用户分享了通过命令'Disable-mmagent -mc'禁用内存压缩来解决Windows 11中AMD GPU运行AI模型时的性能瓶颈问题。
claude-mem 是一个开源工具,为 Claude Code 提供持久的内存压缩功能,使其能够在会话之间记住上下文。