memory-optimization

#memory-optimization

CATS：面向内存受限 LLM 推理加速的级联自适应树猜测

arXiv cs.LG ↗ · 14小时前缓存

本文介绍了 CATS，这是一种级联自适应树猜测框架，旨在通过优化内存使用同时保持高 Token 接受率，加速内存受限边缘设备上的 LLM 推理。

0 人收藏 0 人点赞

#memory-optimization

面向长上下文大语言模型的训练-推理一致性分段执行

arXiv cs.CL ↗ · 14小时前缓存

本文提出了一种面向长上下文大语言模型的训练-推理一致性分段执行框架，旨在解决全上下文训练与受限推理机制之间的不匹配问题，在显著降低内存占用的同时实现了相当的性能。

0 人收藏 0 人点赞

#memory-optimization

mpsc 通道的隐藏成本

Lobsters Hottest ↗ · 昨天缓存

本文分析了 Rust 中 Tokio 的 mpsc 通道中意想不到的内存分配开销，揭示了由于内部块大小导致的每个通道的固定开销。文章展示了这一开销如何影响诸如 Agent Gateway 这样的大规模应用程序，并建议采用 futures-channel 等替代方案以提高内存效率。

0 人收藏 0 人点赞

#memory-optimization

CERSA：一种用于内存高效微调的累积能量保留子空间自适应方法

arXiv cs.LG ↗ · 昨天缓存

本文介绍了 CERSA，这是一种新颖的参数高效微调方法，它利用奇异值分解来保留主成分，在显著降低内存使用的同时，其表现优于 LoRA 等现有方法。

0 人收藏 0 人点赞

#memory-optimization

受 TurboQuant 启发的 KV 缓存量化方案的统计推断与质量评估

arXiv cs.LG ↗ · 昨天缓存

本文分析了受 TurboQuant 启发的 KV 缓存量化方案，利用统计推断和新的 6D 误差框架来评估 KL 散度、几何误差等质量指标。

0 人收藏 0 人点赞

#memory-optimization

@tom_doerr: 在 16GB 内存 Mac 上运行 35B 模型 https://github.com/walter-grace/mac-code…

X AI KOLs Timeline ↗ · 2天前缓存

该工具支持通过从 SSD 流式加载模型权重，在 16GB Mac 上运行 Qwen3.5-35B 等大型语言模型，经优化配置后最高可达 30 tok/s。

0 人收藏 0 人点赞

#memory-optimization

针对长上下文大模型推理重新定义 KV 缓存淘汰问题

arXiv cs.CL ↗ · 2天前缓存

本文介绍了 LaProx，这是一种用于长上下文大模型推理的新型 KV 缓存淘汰策略。它将问题重构为输出感知的矩阵乘法近似问题，仅使用 5% 的缓存用量即可实现高性能。

0 人收藏 0 人点赞

#memory-optimization

LKV：通过端到端学习多头预算与 Token 选择优化大模型 KV 缓存淘汰机制

arXiv cs.LG ↗ · 2天前缓存

本文提出了 LKV，这是一种通过端到端学习基于 Attention Head 的预算分配与 Token 选择策略来优化大语言模型 KV 缓存淘汰的方法，在实现高压缩率的同时取得了最先进的性能表现。

0 人收藏 0 人点赞

#memory-optimization

RateQuant：基于率失真理论的优化混合精度KV Cache量化

arXiv cs.LG ↗ · 2天前缓存

本文介绍了 RateQuant，一种用于优化混合精度 KV Cache 量化的方法。该方法利用率失真理论解决失真模型不匹配问题，与 KIVI 和 QuaRot 等现有方法相比，在极低的校准开销下显著降低了困惑度。

0 人收藏 0 人点赞

#memory-optimization

我解决了 KV-cache 问题

Reddit r/AI_Agents ↗ · 2天前

作者开源了一种名为 catalyst-brain 的新型 KV-cache 解决方案，声称可大幅降低本地模型对 RAM 的需求，并可能实现无限上下文窗口。

0 人收藏 0 人点赞

#memory-optimization

让每个 Token 都物尽其用：通过 KV 缓存淘汰提升长上下文性能

Hugging Face Daily Papers ↗ · 3天前缓存

本文提出了一种基于学习的全局保留率 KV 缓存淘汰方法，通过选择性保留有用 Token 并减少注意力稀释来改善长上下文推理能力，同时显著降低内存占用。

0 人收藏 0 人点赞

#memory-optimization

混合与循环大语言模型服务中的稀疏前缀缓存

arXiv cs.LG ↗ · 5天前缓存

本文针对混合和循环大语言模型提出了稀疏前缀缓存方法，该方法在有限的检查点位置存储循环状态，从而避免密集缓存，同时最小化重计算量。在真实数据上，该方法优于标准启发式方法，尤其是在请求共享大量但非完全相同的前缀时。

0 人收藏 1 人点赞

#memory-optimization

@AI_jacksaku: GitHub本周黑马：Unsloth AI模型训练速度提升2-5倍，显存占用减少80%。这意味着什么？以前微调一个大模型，需要A100集群+几万美金。现在一张4090，几小时就能搞定。 Unsloth做了什么？优化了注意力机…

X AI KOLs Timeline ↗ · 2026-04-23 缓存

Unsloth开源工具将大模型微调速度提升2-5倍、显存降低80%，使单张RTX 4090几小时完成原本需A100集群的任务。

0 人收藏 0 人点赞

#memory-optimization

@0xSero：本地部署（一）—— Apple Silicon Mac 拥有大内存池可跑大模型，但 token 生成速度会……

X AI KOLs Following ↗ · 2026-04-22 缓存

Apple Silicon Mac 提供大内存池运行大模型，但 token 生成较慢，最适合活跃参数量低的大型 MoE 模型。

0 人收藏 0 人点赞

memory-optimization

提交意见反馈