memory-optimization

标签

Cards List
#memory-optimization

CATS:面向内存受限 LLM 推理加速的级联自适应树猜测

arXiv cs.LG · 14小时前 缓存

本文介绍了 CATS,这是一种级联自适应树猜测框架,旨在通过优化内存使用同时保持高 Token 接受率,加速内存受限边缘设备上的 LLM 推理。

0 人收藏 0 人点赞
#memory-optimization

面向长上下文大语言模型的训练-推理一致性分段执行

arXiv cs.CL · 14小时前 缓存

本文提出了一种面向长上下文大语言模型的训练-推理一致性分段执行框架,旨在解决全上下文训练与受限推理机制之间的不匹配问题,在显著降低内存占用的同时实现了相当的性能。

0 人收藏 0 人点赞
#memory-optimization

mpsc 通道的隐藏成本

Lobsters Hottest · 昨天 缓存

本文分析了 Rust 中 Tokio 的 mpsc 通道中意想不到的内存分配开销,揭示了由于内部块大小导致的每个通道的固定开销。文章展示了这一开销如何影响诸如 Agent Gateway 这样的大规模应用程序,并建议采用 futures-channel 等替代方案以提高内存效率。

0 人收藏 0 人点赞
#memory-optimization

CERSA:一种用于内存高效微调的累积能量保留子空间自适应方法

arXiv cs.LG · 昨天 缓存

本文介绍了 CERSA,这是一种新颖的参数高效微调方法,它利用奇异值分解来保留主成分,在显著降低内存使用的同时,其表现优于 LoRA 等现有方法。

0 人收藏 0 人点赞
#memory-optimization

受 TurboQuant 启发的 KV 缓存量化方案的统计推断与质量评估

arXiv cs.LG · 昨天 缓存

本文分析了受 TurboQuant 启发的 KV 缓存量化方案,利用统计推断和新的 6D 误差框架来评估 KL 散度、几何误差等质量指标。

0 人收藏 0 人点赞
#memory-optimization

@tom_doerr: 在 16GB 内存 Mac 上运行 35B 模型 https://github.com/walter-grace/mac-code…

X AI KOLs Timeline · 2天前 缓存

该工具支持通过从 SSD 流式加载模型权重,在 16GB Mac 上运行 Qwen3.5-35B 等大型语言模型,经优化配置后最高可达 30 tok/s。

0 人收藏 0 人点赞
#memory-optimization

针对长上下文大模型推理重新定义 KV 缓存淘汰问题

arXiv cs.CL · 2天前 缓存

本文介绍了 LaProx,这是一种用于长上下文大模型推理的新型 KV 缓存淘汰策略。它将问题重构为输出感知的矩阵乘法近似问题,仅使用 5% 的缓存用量即可实现高性能。

0 人收藏 0 人点赞
#memory-optimization

LKV:通过端到端学习多头预算与 Token 选择优化大模型 KV 缓存淘汰机制

arXiv cs.LG · 2天前 缓存

本文提出了 LKV,这是一种通过端到端学习基于 Attention Head 的预算分配与 Token 选择策略来优化大语言模型 KV 缓存淘汰的方法,在实现高压缩率的同时取得了最先进的性能表现。

0 人收藏 0 人点赞
#memory-optimization

RateQuant:基于率失真理论的优化混合精度KV Cache量化

arXiv cs.LG · 2天前 缓存

本文介绍了 RateQuant,一种用于优化混合精度 KV Cache 量化的方法。该方法利用率失真理论解决失真模型不匹配问题,与 KIVI 和 QuaRot 等现有方法相比,在极低的校准开销下显著降低了困惑度。

0 人收藏 0 人点赞
#memory-optimization

我解决了 KV-cache 问题

Reddit r/AI_Agents · 2天前

作者开源了一种名为 catalyst-brain 的新型 KV-cache 解决方案,声称可大幅降低本地模型对 RAM 的需求,并可能实现无限上下文窗口。

0 人收藏 0 人点赞
#memory-optimization

让每个 Token 都物尽其用:通过 KV 缓存淘汰提升长上下文性能

Hugging Face Daily Papers · 3天前 缓存

本文提出了一种基于学习的全局保留率 KV 缓存淘汰方法,通过选择性保留有用 Token 并减少注意力稀释来改善长上下文推理能力,同时显著降低内存占用。

0 人收藏 0 人点赞
#memory-optimization

混合与循环大语言模型服务中的稀疏前缀缓存

arXiv cs.LG · 5天前 缓存

本文针对混合和循环大语言模型提出了稀疏前缀缓存方法,该方法在有限的检查点位置存储循环状态,从而避免密集缓存,同时最小化重计算量。在真实数据上,该方法优于标准启发式方法,尤其是在请求共享大量但非完全相同的前缀时。

0 人收藏 1 人点赞
#memory-optimization

@AI_jacksaku: GitHub本周黑马:Unsloth AI模型训练速度提升2-5倍, 显存占用减少80%。 这意味着什么? 以前微调一个大模型, 需要A100集群+几万美金。 现在一张4090, 几小时就能搞定。 Unsloth做了什么? 优化了注意力机…

X AI KOLs Timeline · 2026-04-23 缓存

Unsloth开源工具将大模型微调速度提升2-5倍、显存降低80%,使单张RTX 4090几小时完成原本需A100集群的任务。

0 人收藏 0 人点赞
#memory-optimization

@0xSero:本地部署(一)—— Apple Silicon Mac 拥有大内存池可跑大模型,但 token 生成速度会……

X AI KOLs Following · 2026-04-22 缓存

Apple Silicon Mac 提供大内存池运行大模型,但 token 生成较慢,最适合活跃参数量低的大型 MoE 模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈